Meta週六發佈了其新旗艦AI模型Maverick,該模型在LM Arena評測中排名第二。LM Arena是一項依靠人類評分者比較不同模型輸出並選擇偏好的測試平臺。然而,多位AI研究人員很快發現,Meta部署到LM Arena的Maverick版本似乎與開發人員廣泛使用的版本存在顯著差異。

Facebook 元宇宙 meta

Meta在公告中承認,LM Arena上的Maverick是一個"實驗性聊天版本"。與此同時,Llama官方網站上的圖表顯示,Meta的LM Arena測試使用的是"針對對話性進行了優化的Llama4Maverick"。這種差異引發了研究社區的質疑。

AI研究人員在社交平臺X上指出,公開可下載的Maverick與LM Arena上託管版本之間存在明顯行爲差異。LM Arena版本的特點是使用大量表情符號並提供冗長的回答,這在標準版本中並不常見。一位名爲Nathan Lambert的研究人員在X上分享了這一發現,諷刺地評論道:"好吧,Llama4肯定有點煮熟了,哈哈,這是雅普城什麼地方",並附上了相關截圖。

這種爲特定基準測試定製模型然後發佈"原始"版本的做法引發了嚴重問題,主要是因爲這會使開發人員難以準確預測模型在實際應用場景中的表現。此外,這種做法也被認爲具有誤導性,因爲基準測試的目的是提供單個模型在各種任務中優勢和劣勢的客觀快照。

儘管LM Arena由於各種原因一直不被視爲衡量AI模型性能的最可靠指標,但AI公司通常不會公開承認爲了在評測中獲得更好分數而專門優化模型。Meta的這一做法似乎打破了這一慣例,引發了對AI模型評測透明度的更廣泛討論。