先日公表された SuperCLUE-VLM12月のマルチモーダル視覚言語ベンチマークテストにおいて、世界中のAI大規模モデルは非常に強い競争状態を示しています。今回の評価は、基礎認識、視覚推論および視覚応用という3つの核心的な次元から行われ、各モデルの「目力」と「脳力」を全面的に検証しました。

今回の競争では、グーグルがリリースした
さらに、百度のERNIE-5.0-PreviewとアリババのQwen3-vlも順位表の上位5位にランクインしました。その中でもQwen3-vlは、順位表の中で初めて70点を突破したオープンソースモデルとなり、オープンソースコミュニティに非常に強力な視覚解析能力をもたらしました。
一方、一部の国際的な老舗モデルの成績はやや劣化しています。AnthropicのClaude-opus-4-5は71.44点を獲得し、OpenAIのGPT-5.2(high)は予想外に第一グループから脱落し、69.16点で後方へと滑り込みました。このランキングの変化は、マルチモーダルAI分野における競争が白熱化していることを示しています。
ポイント:
🏆 世界をリード: グーグルのGemini-3-proは83.64点で優勝し、基礎認識、視覚推論、応用の3つの指標すべてで第一位を維持しています。
🇨🇳 中国モデルの爆発的成長: センスノヴァと豆包がそれぞれ2位・3位となり、中国の大規模モデルが視覚理解分野で非常に強い競争力を示しています。
📊 業界の再編: Qwen3-vlは初めて70点を突破したオープンソースモデルとなり、GPT-5.2(high)は今回の視覚評価で予想以上に劣る成績を収め、後方へと沈みました。
