中国の大規模モデルは、全モーダルインタラクション分野において「追従」から「リード」への華麗な転換を果たしています。
3月30日、

万能性能:215項目のタスクで優勝、実力でGeminiを上回る
大規模モデルの総合的な実力を測る重要な指標において、
SOTA制覇: 音声・映像の理解・認識・インタラクションなど、合計215項目のテストでSOTA(最良の性能)を達成しました。
優勝対比: DailyOmniやQualcommInteractiveなどの視聴覚インタラクションに特化したテストでは、GoogleのGemini-3.1Proを大幅に上回りました。
耐干渉スキル: 騒音のある環境でのWenetSpeechテストでは、高い認識正確率を維持し、誤差率は競合よりもはるかに低くなりました。
インタラクション革命:113言語の認識と「口でプログラミング」
言語専門家: 113種類の言語と方言の認識をサポートしており、マオリ語や海南方言のような少数言語でも正確に捉えることができます。
Vibe Codingの進化: 音声と映像によるプログラミングの新時代を切り開きました。ユーザーはカメラを起動し、スケッチに対して要望を口述するだけで、モデルが複雑なUIを備えた製品プロトタイプ画面を直接生成します。つまり、「言うこと=得られるもの」を実現します。
生産性爆発:10時間以上の音声長期間理解
専門分野に対応して、新モデルは非常に強力な構造化処理能力を提供しています:
動画の深層解析: 画面の主役、人物関係、感情の変化などを非常に細かい粒度で分解できます。
自動セグメント: 10時間を超える音声入力に対応し、動画のセクション分割とタイムスタンプの付与を自動で行うことができ、コンテンツ制作の効率を大幅に向上させます。
インクルージョンエコシステム:Geminiの10分の1の価格
低コスト: 100万トークンあたりの入力コストは0.8元以下で、Gemini-3.1Proの10分の1以下の価格です。
市場リード: 現在、
結論:「文字を理解する」から「世界を感知する」へ
