最近、NVIDIAはトロント大学、ベクトル研究所、テキサス大学オースティン校の研究チームと共同で、**ViPE(ビデオポジションエンジン)**という画期的な技術を発表しました。ViPEは、3D幾何認識分野の重要な課題である、複雑な自然動画から効率的かつ正確に3D情報を抽出する方法を解決することを目的としています。

技術の核と応用
3D幾何認識は、自動運転や仮想現実(VR)、拡張現実(AR)などの現代技術の中心です。ViPEは、原始的な動画からカメラの固有特性、運動情報および高精度の深度マップを迅速に取得し、これらの空間AIシステムに信頼できるデータの基盤を提供します。
ViPEは非常に柔軟性があり、さまざまなシーンやカメラタイプに対応でき、動的なセルフィー動画、映画のカット、ドライブレコーダー、ピンホール、広角、360°パンモーションカメラモデルなどを含みます。

仕組みと性能
研究チームは、ViPEの高精度を確保するために多重制約の混合手法を採用しています:
束調整:キーフレーム上で密な束調整を行い、カメラパラメータ、姿勢、深度マップを推定します。
密なフローと疎な点の制約:DROID-SLAMネットワークの密なフローの制約とcuvslamライブラリの疎な点の制約を取り入れ、安定性とピクセル以下の精度を保証します。
深度正則化:単眼度量深度ネットワークを利用して、スケールの曖昧さと一貫性の問題を解決し、高解像度で時間的に一貫した深度情報を生成します。
テスト結果によると、ViPEは現在の技術(MegaSAM、VGGT、MASt3R-SLAMなど)よりも多くのベンチマークテストで優れた性能を示しました。それは姿勢と内部関数の精度だけでなく、単一のGPUで1秒間に3〜5フレームの速度で安定して動作でき、スケールが一貫した軌跡を成功裏に生成したことを意味します。
空間AI分野のさらなる研究を推進するために、このチームは約9,600万フレームの注釈データを含む大規模データセットを公開しました。これは今後の技術探索にとって貴重な資源となっています。ViPEの公開は、3D幾何認識技術の重要な進歩を示すものであり、将来の空間AIアプリケーションの堅固な基盤を築くものです。
アドレス:https://research.nvidia.com/labs/toronto-ai/vipe/
