2025 全球中文大模型榜單出爐：海外巨頭包攬前三，國產大模型在細分領域超車

SuperCLUE正式發佈了“2025年度中文大模型基準測評報告”，這場匯聚了23個國內外頂尖模型的“全明星賽”，再次揭示了全球AI戰局的新動向。測評覆蓋了數學推理、代碼生成及科學推理等六大核心維度，直觀展示了當前中文語境下各大模型的真實“戰力”。

從綜合排名來看，海外閉源模型依然展現出強大的統治力。Anthropic旗下的Claude-Opus-4.5-Reasoning憑藉68.25的高分問鼎榜首，谷歌的Gemini-3-Pro-Preview與OpenAI的GPT-5.2（high）緊隨其後，分別奪得亞軍和季軍。這三大巨頭構成的“第一梯隊”，在邏輯嚴密性和綜合理解力上依然保持着微弱的領先優勢。

然而，國產大模型的表現堪稱驚喜，正以前所未有的速度縮小差距。國內開源界的“領頭羊”Kimi-K2.5-Thinking與閉源代表Qwen3-Max-Thinking分別殺入全球前十，位列第四和第六。值得振奮的是，在垂直賽道上，國產模型已經實現了“局部反超”:Kimi在代碼生成任務中勇奪全球第一，而Qwen3則在數學推理上與谷歌並列世界冠軍。

縱觀整體格局，海內外呈現出截然不同的競爭態勢。閉源領域目前是“海外領跑、國產追趕”;而在開源領域，國產模型則佔據了絕對的主導地位，國內開源Top5的實力已大幅領先海外同類模型。這種“開閉並進”的局面，預示着中文AI生態正進入一個高質量發展的爆發期。

劃重點:

🏆 海外巨頭領跑: Claude-Opus-4.5-Reasoning以最高分位居全球中文大模型戰力榜首，海外閉源模型依然包攬前三名。
🚀 國產局部超越: Kimi-K2.5-Thinking在代碼生成領域奪冠，Qwen3-Max-Thinking則在數學推理上與谷歌Gemini並列全球第一。
📊 開源國產主導: 在開源模型陣營中，國產模型表現遠超海外競爭對手，展現了國內大模型生態在開放協作方面的獨特優勢。

騰訊Hy3 編程評測出爐：參數只有對手五分之一，代碼能力卻與DeepSeek-V4-Pro打平

SuperCLUE公佈騰訊Hy3語言模型編程專項測評，與DeepSeek-V4-Pro等對比。Hy3爲MoE架構，總參數295B、激活僅21B，支持256K上下文，號稱混元最強。結果參數遠小卻表現意外出色，從四大維度評估兼顧性能與花銷，測評針對國內程序員日常寫代碼的真實場景。

GPT Image 2超越Nano Banana2 登頂全球視覺模型榜首

OpenAI的GPT Image2在SuperCLUE最新評測中超越谷歌Nano Banana2，成爲全球文生圖模型冠軍。該模型自4月21日上線後，在畫質、理解力和細節還原度上顯著提升，刷新行業標準。評測覆蓋多個核心維度，尤其解決了海外模型長期存在的漢語文本生成難題，展現了全面優勢。

2025 全球中文大模型榜單出爐：海外巨頭包攬前三，國產大模型在細分領域超車

相關推薦

騰訊Hy3 編程評測出爐：參數只有對手五分之一，代碼能力卻與DeepSeek-V4-Pro打平

GPT Image 2超越Nano Banana2 登頂全球視覺模型榜首

DeepSeek V4 中文大模型評測：再創國內第一輝煌！

中文大模型 SuperCLUE 測評：豆包躋身全球第一梯隊

國產模型爆發！豆包躋身全球第一梯隊，小米 MiMo 數學推理獲高分

​2025 全球中文大模型榜單出爐：海外巨頭包攬前三，國產大模型在細分領域超車

相關推薦

騰訊Hy3 編程評測出爐：參數只有對手五分之一，代碼能力卻與DeepSeek-V4-Pro打平

​GPT Image 2超越Nano Banana2 登頂全球視覺模型榜首

DeepSeek V4 中文大模型評測：再創國內第一輝煌！

中文大模型 SuperCLUE 測評：豆包躋身全球第一梯隊

國產模型爆發！豆包躋身全球第一梯隊，小米 MiMo 數學推理獲高分

2025 全球中文大模型榜單出爐：海外巨頭包攬前三，國產大模型在細分領域超車

GPT Image 2超越Nano Banana2 登頂全球視覺模型榜首