近日,SuperCLUE 發佈了2025年度中文大模型基準測評報告,吸引了衆多科技愛好者的目光。在此次評測中,共有23個國內外大模型參與角逐,涵蓋數學推理、科學推理和代碼生成等六大核心維度。評測結果顯示,海外閉源模型依舊佔據領先地位,尤其是 Anthropic 的 Claude-Opus-4.5-Reasoning,以68.25分高居榜首,成爲了此次評測的佼佼者。
緊隨其後的是谷歌的 Gemini-3-Pro-Preview 和 OpenAI 的 GPT-5.2(high),分別以65.59分和64.32分位列第二和第三,海外巨頭們的實力依然令人矚目。不過,值得一提的是,國產大模型在此次評測中也展現出驚人的實力,特別是開源模型 Kimi-K2.5-Thinking 和閉源模型 Qwen3-Max-Thinking,分別以61.50分和60.61分榮獲第四和第六名的好成績。

在細分領域中,國產模型表現尤爲突出。Kimi-K2.5-Thinking 在代碼生成任務中以53.33分的優異成績奪得了冠軍,而 Qwen3-Max-Thinking 在數學推理任務中與 Gemini-3-Pro-Preview 並列,以80.87分的成績榮登榜首。這些成績表明,國產模型正逐步從 “跟跑” 向 “並跑” 邁進,展現出強大的追趕能力。
從整體來看,海外閉源模型仍然領先於國產模型,但國產開源模型卻表現出色,在 Top5中佔據了絕對優勢,顯示出國產開源模型的強勁實力與發展潛力。隨着科技的不斷進步和國內研發的加速,未來的中文大模型領域或將迎來更多驚喜與挑戰。
