近日,斯坦福大學的大模型測評榜單HELM MMLU發佈了最新結果。斯坦福大學基礎模型研究中心主任Percy Liang發文指出,阿里巴巴的通義千問Qwen2-72B模型在排名上超過了Llama3-70B,成爲表現最優的開源大模型。
MMLU(Massive Multitask Language Understanding,大規模多任務語言理解)是業界最具影響力的大模型測評基準之一。它涵蓋了基礎數學、計算機科學、法律、歷史等57項任務,旨在測試大模型的世界知識和問題解決能力。然而,在實際測評中,不同模型的結果往往缺乏一致性和可比性,這主要是由於使用了非標準提示詞技術和未統一採用開源評價框架等原因。

斯坦福大學基礎模型研究中心(CRFM,Center for Research on Foundation Models)提出的基礎模型評估框架HELM(A holistic framework for evaluating foundation models),致力於創建一種透明、可復現的評估方法。HELM框架對不同模型在MMLU上的評估結果進行標準化和透明化處理,解決了現有MMLU評估中存在的問題。例如,對所有參評模型使用相同的提示詞,並在每項測試主題上爲模型提供同樣的5個示例進行情境學習。
斯坦福大學基礎模型研究中心主任Percy Liang近日在社交平臺發佈了HELM MMLU最新榜單。榜單顯示,阿里巴巴的通義千問開源模型Qwen2-72B排名第5,僅次於Claude3Opus、GPT-4o、Gemini1.5pro和GPT-4,是排名最高的開源大模型,同時也是表現最優的中國大模型。
通義千問Qwen2系列於2024年6月初開源,包含5個不同尺寸的預訓練和指令微調模型。截至目前,Qwen系列模型的下載量已突破1600萬次,顯示出其在業界的廣泛認可和強大性能。
HELM MMLU的最新評測結果,不僅彰顯了Qwen2-72B在多任務語言理解中的卓越表現,也標誌着中國大模型在全球AI技術競賽中的崛起。隨着技術的不斷進步,期待未來能夠看到更多來自中國的優秀大模型在國際舞臺上展露頭角。
