Meta被指AI模型"雙標":評測版與公開版Maverick表現大相徑庭

Meta週六發佈了其新旗艦AI模型Maverick，該模型在LM Arena評測中排名第二。LM Arena是一項依靠人類評分者比較不同模型輸出並選擇偏好的測試平臺。然而，多位AI研究人員很快發現，Meta部署到LM Arena的Maverick版本似乎與開發人員廣泛使用的版本存在顯著差異。

Facebook 元宇宙 meta

Meta在公告中承認，LM Arena上的Maverick是一個"實驗性聊天版本"。與此同時，Llama官方網站上的圖表顯示，Meta的LM Arena測試使用的是"針對對話性進行了優化的Llama4Maverick"。這種差異引發了研究社區的質疑。

AI研究人員在社交平臺X上指出，公開可下載的Maverick與LM Arena上託管版本之間存在明顯行爲差異。LM Arena版本的特點是使用大量表情符號並提供冗長的回答，這在標準版本中並不常見。一位名爲Nathan Lambert的研究人員在X上分享了這一發現，諷刺地評論道:"好吧，Llama4肯定有點煮熟了，哈哈，這是雅普城什麼地方"，並附上了相關截圖。

這種爲特定基準測試定製模型然後發佈"原始"版本的做法引發了嚴重問題，主要是因爲這會使開發人員難以準確預測模型在實際應用場景中的表現。此外，這種做法也被認爲具有誤導性，因爲基準測試的目的是提供單個模型在各種任務中優勢和劣勢的客觀快照。

儘管LM Arena由於各種原因一直不被視爲衡量AI模型性能的最可靠指標，但AI公司通常不會公開承認爲了在評測中獲得更好分數而專門優化模型。Meta的這一做法似乎打破了這一慣例，引發了對AI模型評測透明度的更廣泛討論。

Meta被指AI模型"雙標":評測版與公開版Maverick表現大相徑庭

相關推薦

全球最強開源圖生圖!騰訊混元圖像3.0正式開源，800億參數助力 AI 創作

國產大模型殺入全球前十！文心ERNIE 5.0登頂LMArena榜單，數學能力直逼GPT

國產大模型首登頂！文心5.0 Preview在LMArena全球競技場拿下中國最高分

Meta 授權員工使用競爭對手 AI 工具，提升工作效率

Meta全面擁抱競品AI：員工可自由調用ChatGPT-5、Gemini 3 Pro，甚至用Midjourney畫圖

Meta被指AI模型"雙標":評測版與公開版Maverick表現大相徑庭

相關推薦

全球最強開源圖生圖!騰訊混元圖像3.0正式開源，800億參數助力 AI 創作

國產大模型殺入全球前十！文心ERNIE 5.0登頂LMArena榜單，數學能力直逼GPT

​國產大模型首登頂！文心5.0 Preview在LMArena全球競技場拿下中國最高分

​Meta 授權員工使用競爭對手 AI 工具，提升工作效率

Meta全面擁抱競品AI：員工可自由調用ChatGPT-5、Gemini 3 Pro，甚至用Midjourney畫圖

國產大模型首登頂！文心5.0 Preview在LMArena全球競技場拿下中國最高分

Meta 授權員工使用競爭對手 AI 工具，提升工作效率