現地時間4月28日、NVIDIAは最新のオープンなマルチモーダル大規模モデルである「Nemotron3Nano Omni」を正式にリリースしました。このモデルは「万能選手」として位置付けられ、ビデオ、音声、画像、テキストの深い推論能力を高度に統合することで、開発者により迅速でスマートな対話応答ソリューションを提供することを目的としています。

技術構造における革新はこのモデルの大きな特徴です。Nemotron3Nano Omniは30B-A3Bの「ミックス・オブ・エクスパート(MoE)」アーキテクチャを使用し、視覚と音声エンコーダーをシステム内に直接統合しています。このような一元化された設計により、これまで多モーダル処理に複数の独立したセンシングモデルを依存していた状況を打破し、「断片的なコンテキスト」から「統一されたコンテキスト」への飛躍を実現しました。

image.png

パフォーマンスデータの表現は特に目立ちます。公式の公表によると、このモデルは複雑な文書処理、動画理解、音声認識などの6つの権威あるランキングで首位を獲得しています。その独自の感知精度により、このシステムは非常に高いインタラクティブ性を維持しながら、同類のオープンな全方向モデルの9倍のスループットを達成しています。これは、企業がAIエージェントを導入する際、低いコストでより強力な拡張性を実現でき、応答の即時性を損なうことなく行えることを意味します。

現在、多くの先駆的なテクノロジー企業がこのモデルに接続しています。H社のCEOであるGautier Cloix氏はこのモデルについて評価し、新しいアーキテクチャにより、AIエージェントがリアルタイムでフルハイビジョン画面の録画を解釈できるようになったと述べました。これは、AIが単なるタスクの実行者から、リアルタイムでデジタル環境を感知し理解する相互作用者へと進化したことを示しています。