物理AI分野で画期的な突破が起こりました。6月1日、NVIDIAは物理AI向けのオープンワールドベースの大規模モデル「Cosmos3」を正式に発表しました。世界初の全オープンソース・全モダリティ対応の物理AI大規模モデルとして、独自の混合Transformerアーキテクチャを採用し、視覚推論、世界生成、動作予測の能力を一つのシステムに統合しています。これにより、物理AIのトレーニングと評価のサイクルが数か月から数日まで大幅に短縮される見込みです。

身体知能において長期間抱えてきた課題、「限られたデータと散在したシミュレーションフレームワークでは現実的な場面での汎化が難しい」という業界の問題に対して、Cosmos3は新たな解決策を提示しています。このモデルは数十億ものテキスト、画像、動画、音声および動作軌跡を含む膨大な物理AIデータセットに基づいて訓練されており、マルチモーダルなコンテンツをネイティブに理解・生成でき、物理シミュレーションの精度は業界で最も高いレベルに達しています。

image.png

技術構造において、Cosmos3は推論用のTransformerと生成用のTransformerを独創的に統合しています。モデルはまず物体の相互作用の法則、運動状態、時間空間的関連性を深く解析し、その後、ビデオ生成と動作軌跡予測を正確に行います。この設計により、非常に強力なマルチモーダルな画像・文章理解能力、物理環境のシミュレーション予測能力、そしてロボットが専門的なタスクを遂行するための動作戦略能力を備えています。Artificial Analysis、Physics-IQ、RoboLabなど、いくつかの主要な物理AI評価基準において、Cosmos3はオープンソースモデルの中で最上位を占めています。

NVIDIAは今回の大きなモデルの発表に合わせて、複数のバージョンを提供しました。ロボットや自動運転モデルの二次トレーニングに特化し、極めて高い精度を目指すCosmos3Super、そして数秒以内に高品質なビデオ解析と動作推論を完了できるCosmos3Nano、この2つのバージョンはすでに公開されています。また、エッジ端でのリアルタイム推論に特化したCosmos3Edgeバージョンも発売計画の中に含まれています。