業界がマルチモーダルAIが実際に実装できるかどうかを論じている間に、メイドゥーは静かに一張の王牌を打ち出してきた——新たにオープンソース化された大規模モデル「LongCat-Flash-Omni」が正式リリースされ、複数のベンチマークテストで多くの非公開競合を上回り、「オープンソース即SOTA(State-of-the-Art)」という珍しい突破を達成した。この名前には「全能」の意味が込められているAIシステムは、テキスト、音声、画像、動画のリアルタイムでの統合処理をサポートし、ほぼ遅延がないインタラクティブな体験を通じて、ローカライズされたマルチモーダルインテリジェンスを新たな高みへと押し上げた。

LongCat-Flash-Omniの驚くべき点は、複雑なクロスモーダルタスクを正確に制御できる点にある。テスト結果によると、「六角形空間内で小さなボールの運動軌跡を説明する」といった物理的論理と空間的推論を融合させた問題に対して、モデルは正確なモデリングだけでなく、自然言語で力学過程を明確に説明できる。音声認識においては、高いノイズ環境でも語義を正確に抽出し、曖昧な画像や短い動画クリップに対しても、関連情報を迅速に特定して構造化された回答を生成できる。

image.png

これらの性能は、革新的なエンド・トゥ・エンドの統一アーキテクチャにより実現されている。従来のマルチモーダルモデルでは各モードのブランチを独立して処理した後、組み合わせていたが、LongCatは深い統合設計を採用しており、テキスト、音声、ビジュアルデータを統一された表現空間で整列および推論している。トレーニングの過程では、チームは段階的なマルチモーダル注入戦略を採用した——まず言語の基礎を固め、その後徐々に画像、音声、動画データを導入し、モデルが言語能力を維持しながらも、マルチモーダルの汎化性能を着実に向上させてきた。

さらに驚いたのは、極限まで最適化された応答速度である。Flash推論エンジンと軽量設計により、LongCat-Flash-Omniは一般的なコンsumer級GPUでスムーズな会話が可能であり、ユーザーがメイドゥー公式のLongCatアプリまたはウェブサイトで体験する際には、入力と返答の間に遅延を感じることはほとんどない。まさに「質問すれば即座に答えが得られる」自然なインタラクションを実現している。

image.png

現在、このモデルはメイドゥー傘下のプラットフォームで無料で公開されており、開発者はHugging Faceから重みを取得できる。一般ユーザーはアプリ内で直接試用できる。この行動は、メイドゥーがAIの基盤技術に対する自信を示すとともに、国内のマルチモーダルエコシステムの発展を促進する明確なサインを示している。

AIの競争が「単一モーダルの精度」から「マルチモーダルの協調」への転換点に差し掛かっている今、LongCat-Flash-Omniの登場は技術の境界を越えたものであり、アプリケーションの定義を再び見直すものである。配達プラットフォームが国際的な大手企業に匹敵するマルチモーダルの大規模モデルを訓練できるようになったなら、中国のAIの後半戦はおそらくまだ始まっていないのかもしれない。