NVIDIAの研究チームは2026年4月16日に3Dシーン生成システム「Lyra2.0」を正式に発表しました。この技術は単一の写真から大規模で高連続性の仮想環境を構築することを目的としており、長距離カメラパスにおける画像歪みの問題を解決しました。エンターテインメントやロボット工学などの分野での体験型知能のトレーニング需要が急増する中、Lyra2.0の登場はAIが3D空間理解とリアルタイムの環境シミュレーション領域で大きな進歩を遂げたことを示しています。

技術的には、Lyra2.0は1枚の写真を使用して最大90メートルの範囲を持つ3D環境を生成できます。従来の動画モデルが「忘れ」によって生じる空間的な歪みと誤差の蓄積問題に対して、研究者は二つの革新的なアプローチを採用しました。システムは各フレームの3Dジオメトリ情報をリアルタイムで保存し、カメラが元の位置に戻ったときでも環境の一貫性を保つことができます。また、訓練中に欠陥のある出力データを導入することで、モデルが自己修正できる能力を持たせました。基準テストの結果によると、Lyra2.0は画像品質やカメラコントロールなどにおいてGEN3C、Yume-1.5などの6つの競合製品を上回っており、その高速バージョンでは生成効率が13倍向上しています。

現在、Lyra2.0はNvidia Isaac Simなどの物理エンジンとスムーズに接続されており、生成された3Dシーンは直接グリッドモデルとしてエクスポート可能です。このクローズドループのプロセスにより、ロボットは完全にAIによって生成された環境で効率的なシミュレーショントレーニングを行うことができ、現実世界での大規模な3Dデータ収集への依存度を大幅に下げることができます。このシステムは現在静的シーンに限定されていますが、3D生成の規模と安定性の向上により、自動運転や汎用ロボット(AGI)の物理的認識の進化のためにより広い可能性をもたらすインフラストラクチャを提供しています。