2月11日、アリババグループは全モード大規模モデル「Ming-Flash-Omni2.0」のオープンソースを発表しました。複数の公開ベンチマークテストにおいて、このモデルは視覚言語理解、音声制御生成、画像生成および編集などの重要な能力で優れたパフォーマンスを示し、一部の指標ではGemini2.5Proを上回り、オープンソースの全モード大規模モデルの性能の新基準となりました。

Ming-Flash-Omni2.0は業界初の全シナリオ対応の音声統一生成モデルであり、同じ音轨内で音声、環境効果音、音楽を同時に生成できます。ユーザーは自然言語で指示を出すだけで、音色、語速、トーン、ボリューム、感情、方言などに対して細かく制御が可能です。モデルは推論段階で3.1Hzという極めて低い推論フレームレートを実現し、分単位の長音声のリアルタイム高保真生成を可能にし、推論効率とコスト管理において業界を先導しています。

image.png

(図説:Ming-Flash-Omni-2.0は視覚言語理解、音声制御生成、画像生成および編集などの主要な領域での実測結果がオープンソースの先進水準に達しています)

業界では、マルチモーダル大規模モデルは最終的により統一された構造に向かうと考えられており、異なるモーダルとタスクがより深く協働できるようになります。しかし現実には、「全モーダル」モデルはしばしば一般的かつ専門的な両方の側面を同時に満たすことが難しいです。特定の単一の能力においては、オープンソースモデルは専用モデルに劣る場合があります。アリババグループはマルチモーダル分野に数年以上にわたって継続的に投資してきており、Ming-Omniシリーズはそのような背景の中で継続的に進化してきました。初期バージョンでは統一されたマルチモーダル能力のベースを構築し、中期バージョンでは規模拡大による能力向上を検証し、最新の2.0バージョンではさらに大規模なデータとシステム的なトレーニング最適化を通じて、オープンソースのマルチモーダル理解と生成能力を業界トップレベルに押し上げ、一部の分野では最高レベルの専用モデルを上回りました。

今回のMing-Flash-Omni2.0のオープンソース化により、そのコア能力が「再利用可能なベース」として外部に開放され、エンドツーエンドのマルチモーダルアプリケーション開発に統一された能力の入口を提供します。

Ming-Flash-Omni2.0はLing-2.0アーキテクチャ(MoE、100B-A6B)に基づいて訓練されており、「より正確に見る、より詳細に聞く、より安定して生成する」の3つの目標に向けて全体的に最適化されています。視覚面では億単位の細粒度データと難易度の高いトレーニング戦略を統合し、近縁動物や植物、工芸品の細部、希少文化財などの複雑なオブジェクトの認識能力を顕著に向上させています。音声面では、音声、効果音、音楽を同一のトラックで生成でき、自然言語で音色、語速、感情などのパラメータを細かく制御することが可能で、ゼロサンプルの音色クローンとカスタマイズ機能を備えています。画像面では、複雑な編集の安定性を強化し、光の調整、シーンの交換、人物ポーズの最適化、ワンクリック修整などの機能をサポートしており、動的シーンでも画面の一貫性とディテールのリアルさを保持しています。

百靈モデルの責任者である周俊氏は、「マルチモーダル技術の鍵は、統一されたアーキテクチャを通じてマルチモーダル能力の深い統合と効率的な呼び出しを実現することです。オープンソース化後、開発者は同じフレームワークを使用して視覚、音声、生成能力を再利用でき、マルチモデルの連携の複雑さとコストを大幅に削減できます。今後、チームは動画の時系列理解、複雑な画像編集、長音声生成のリアルタイム性を継続的に最適化し、ツールチェーンと評価体系を完備し、マルチモーダル技術の実際のビジネスでのスケーラブルな導入を推進していく予定です。

現在、Ming-Flash-Omni2.0のモデルウェイトと推論コードはHugging Faceなどのオープンソースコミュニティに公開されています。ユーザーはアリババ百靈公式プラットフォームLing Studioを通じてオンラインで体験や呼び出しも可能です。