正文

阿里Qwen2-72B登頂HELM榜單：性能超越Llama3-70B

發布於AI新閒資訊

時間 :Jun 20, 2024

閱讀 :1分鐘

近日，斯坦福大學的大模型測評榜單HELM MMLU發佈了最新結果。斯坦福大學基礎模型研究中心主任Percy Liang發文指出，阿里巴巴的通義千問Qwen2-72B模型在排名上超過了Llama3-70B，成爲表現最優的開源大模型。

MMLU（Massive Multitask Language Understanding，大規模多任務語言理解）是業界最具影響力的大模型測評基準之一。它涵蓋了基礎數學、計算機科學、法律、歷史等57項任務，旨在測試大模型的世界知識和問題解決能力。然而，在實際測評中，不同模型的結果往往缺乏一致性和可比性，這主要是由於使用了非標準提示詞技術和未統一採用開源評價框架等原因。

QQ截圖20240620111950.png

斯坦福大學基礎模型研究中心（CRFM，Center for Research on Foundation Models）提出的基礎模型評估框架HELM(A holistic framework for evaluating foundation models)，致力於創建一種透明、可復現的評估方法。HELM框架對不同模型在MMLU上的評估結果進行標準化和透明化處理，解決了現有MMLU評估中存在的問題。例如，對所有參評模型使用相同的提示詞，並在每項測試主題上爲模型提供同樣的5個示例進行情境學習。

斯坦福大學基礎模型研究中心主任Percy Liang近日在社交平臺發佈了HELM MMLU最新榜單。榜單顯示，阿里巴巴的通義千問開源模型Qwen2-72B排名第5，僅次於Claude3Opus、GPT-4o、Gemini1.5pro和GPT-4，是排名最高的開源大模型，同時也是表現最優的中國大模型。

通義千問Qwen2系列於2024年6月初開源，包含5個不同尺寸的預訓練和指令微調模型。截至目前，Qwen系列模型的下載量已突破1600萬次，顯示出其在業界的廣泛認可和強大性能。

HELM MMLU的最新評測結果，不僅彰顯了Qwen2-72B在多任務語言理解中的卓越表現，也標誌着中國大模型在全球AI技術競賽中的崛起。隨着技術的不斷進步，期待未來能夠看到更多來自中國的優秀大模型在國際舞臺上展露頭角。

通義千問上線足球預測AI助手連紅牌和絕殺都能算準?

2026年美加墨世界盃開幕當天，阿里通義千問App上線足球預測AI助手，精準預測墨西哥2:0勝南非及紅牌趨勢，併成功預判韓國2:1絕殺逆轉捷克，被網友稱爲AI版“章魚哥”。該助手基於海量大數據訓練，除歷史戰績和球員數據外，還引入舉辦地因素，展現高精度預測能力。

Jun 12, 2026

493.7k

壓軸題全押錯？AI軍團折戟 2026 高考作文，教育部發聲反炒作

2026年高考語文作文題聚焦科技前沿：北京卷微寫作探討“人工智能與幸福晚年”，上海卷則圍繞“科技改造世界與人類想象力變化”展開哲學思辨。國內頂尖AI模型DeepSeek、通義千問和豆包同臺迴應，凸顯科技與人文融合的時代命題。

Jun 8, 2026

260.4k

通義千問升級“拍照問健康”:能圈圖、懂推理，三甲醫生實測認可

阿里旗下通義千問APP於2026年5月27日升級“拍照問健康”功能，突破傳統OCR限制，實現醫學圖像理解與臨牀推理。新功能包括視覺圈選，可自動標記化驗單或患處異常區域；以及聯動推理，結合年齡、性別和多指標關聯進行排除法分析，提升診斷準確性。

May 27, 2026

254.8k

阿里通義千問重磅升級：新旗艦Qwen3. 7 預覽版全球首發亮相

阿里雲通義千問大模型推出Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview預覽版，已上線大模型競技場及官方Qwen Chat。兩款模型作爲新一代旗艦預覽版，僅支持“思考模式”，專注高難度邏輯推理與深度計算，預計在阿里雲峯會正式發佈。

May 19, 2026

679.3k

通義千問預告“重量級”大模型將於5月20日阿里雲峯會亮相

阿里雲通義千問大模型將於5月20日阿里雲峯會上推出全新升級版本，在全能性、模型能力和深度廣度上實現全面突破。此舉標誌着國內AI大模型在算力迭代與應用落地方面邁出關鍵一步。當前，國產大模型正迎來密集更新潮，技術向垂直領域縱深發展，市場競爭日趨激烈。

May 18, 2026

624.1k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご