SuperCLUE正式發佈了“2025年度中文大模型基準測評報告”,這場匯聚了23個國內外頂尖模型的“全明星賽”,再次揭示了全球AI戰局的新動向。測評覆蓋了數學推理、代碼生成及科學推理等六大核心維度,直觀展示了當前中文語境下各大模型的真實“戰力”。

從綜合排名來看,海外閉源模型依然展現出強大的統治力。Anthropic旗下的Claude-Opus-4.5-Reasoning憑藉68.25的高分問鼎榜首,谷歌的Gemini-3-Pro-Preview與OpenAI的GPT-5.2(high)緊隨其後,分別奪得亞軍和季軍。這三大巨頭構成的“第一梯隊”,在邏輯嚴密性和綜合理解力上依然保持着微弱的領先優勢。
然而,國產大模型的表現堪稱驚喜,正以前所未有的速度縮小差距。國內開源界的“領頭羊”Kimi-K2.5-Thinking與閉源代表Qwen3-Max-Thinking分別殺入全球前十,位列第四和第六。值得振奮的是,在垂直賽道上,國產模型已經實現了“局部反超”:Kimi在代碼生成任務中勇奪全球第一,而Qwen3則在數學推理上與谷歌並列世界冠軍。
縱觀整體格局,海內外呈現出截然不同的競爭態勢。閉源領域目前是“海外領跑、國產追趕”;而在開源領域,國產模型則佔據了絕對的主導地位,國內開源Top5的實力已大幅領先海外同類模型。這種“開閉並進”的局面,預示着中文AI生態正進入一個高質量發展的爆發期。
劃重點:
🏆 海外巨頭領跑: Claude-Opus-4.5-Reasoning以最高分位居全球中文大模型戰力榜首,海外閉源模型依然包攬前三名。
🚀 國產局部超越: Kimi-K2.5-Thinking在代碼生成領域奪冠,Qwen3-Max-Thinking則在數學推理上與谷歌Gemini並列全球第一。
📊 開源國產主導: 在開源模型陣營中,國產模型表現遠超海外競爭對手,展現了國內大模型生態在開放協作方面的獨特優勢。
