中国の大規模モデルは、全モーダルインタラクション分野において「追従」から「リード」への華麗な転換を果たしています。

3月30日、アリババ は新たに「Qwen3.5-Omni」という全モーダル大規模モデルを正式に発表しました。このモデルは、混合注目メカニズム(MoE)の構造を採用し、画像、動画、音声およびテキストのスムーズな全モーダル入出力が可能となり、国産の大規模モデルが視聴覚インタラクション分野で世界トップレベルに到達したことを示しています。

image.png

万能性能:215項目のタスクで優勝、実力でGeminiを上回る

大規模モデルの総合的な実力を測る重要な指標において、Qwen3.5-Omni は圧倒的なパフォーマンスを示しました:

SOTA制覇: 音声・映像の理解・認識・インタラクションなど、合計215項目のテストでSOTA(最良の性能)を達成しました。

優勝対比: DailyOmniやQualcommInteractiveなどの視聴覚インタラクションに特化したテストでは、GoogleのGemini-3.1Proを大幅に上回りました。

耐干渉スキル: 騒音のある環境でのWenetSpeechテストでは、高い認識正確率を維持し、誤差率は競合よりもはるかに低くなりました。

インタラクション革命:113言語の認識と「口でプログラミング」

Qwen3.5-Omni はより賢くなり、さらに「方言」と「コード」を理解するようになりました:

言語専門家: 113種類の言語と方言の認識をサポートしており、マオリ語や海南方言のような少数言語でも正確に捉えることができます。

Vibe Codingの進化: 音声と映像によるプログラミングの新時代を切り開きました。ユーザーはカメラを起動し、スケッチに対して要望を口述するだけで、モデルが複雑なUIを備えた製品プロトタイプ画面を直接生成します。つまり、「言うこと=得られるもの」を実現します。

生産性爆発:10時間以上の音声長期間理解

専門分野に対応して、新モデルは非常に強力な構造化処理能力を提供しています:

動画の深層解析: 画面の主役、人物関係、感情の変化などを非常に細かい粒度で分解できます。

自動セグメント: 10時間を超える音声入力に対応し、動画のセクション分割とタイムスタンプの付与を自動で行うことができ、コンテンツ制作の効率を大幅に向上させます。

インクルージョンエコシステム:Geminiの10分の1の価格

アリババクラウド百煉 プラットフォームは、Plus、Flash、Lightの3つのAPIを同時にリリースし、企業に最もコストパフォーマンスの高い選択肢を提供しています:

低コスト: 100万トークンあたりの入力コストは0.8元以下で、Gemini-3.1Proの10分の1以下の価格です。

市場リード: 現在、千問 は100万社以上の顧客をサービスしており、中国企業向け大規模モデルの呼び出し市場で第1位を維持しています。

結論:「文字を理解する」から「世界を感知する」へ

Qwen3.5-Omni