先日公表された SuperCLUE-VLM12月のマルチモーダル視覚言語ベンチマークテストにおいて、世界中のAI大規模モデルは非常に強い競争状態を示しています。今回の評価は、基礎認識、視覚推論および視覚応用という3つの核心的な次元から行われ、各モデルの「目力」と「脳力」を全面的に検証しました。

image.png

今回の競争では、グーグルがリリースしたGemini-3-proが83.64点の絶対的な優位性で優勝しました。詳細なデータによると、その3つの細分化指標すべてで全面的なリードを確保し、国際的トップレベルのモデルの深い実力を示しています。また、国内モデルの全体的なパフォーマンスも同様に目立ちます。センスノヴァのV6.5Proが75.35点で2位となり、字節跳動傘下の豆包の視覚版が73.15点で3位に入り、注目されています。特に豆包は基礎認識分野での成績が一部の国際的な強敵を上回るなど、驚くべき成果を収めています。

さらに、百度のERNIE-5.0-PreviewとアリババのQwen3-vlも順位表の上位5位にランクインしました。その中でもQwen3-vlは、順位表の中で初めて70点を突破したオープンソースモデルとなり、オープンソースコミュニティに非常に強力な視覚解析能力をもたらしました。

一方、一部の国際的な老舗モデルの成績はやや劣化しています。AnthropicのClaude-opus-4-5は71.44点を獲得し、OpenAIのGPT-5.2(high)は予想外に第一グループから脱落し、69.16点で後方へと滑り込みました。このランキングの変化は、マルチモーダルAI分野における競争が白熱化していることを示しています。

ポイント:

  • 🏆 世界をリード: グーグルのGemini-3-proは83.64点で優勝し、基礎認識、視覚推論、応用の3つの指標すべてで第一位を維持しています。

  • 🇨🇳 中国モデルの爆発的成長: センスノヴァと豆包がそれぞれ2位・3位となり、中国の大規模モデルが視覚理解分野で非常に強い競争力を示しています。

  • 📊 業界の再編: Qwen3-vlは初めて70点を突破したオープンソースモデルとなり、GPT-5.2(high)は今回の視覚評価で予想以上に劣る成績を収め、後方へと沈みました。