このほど、テンセントは「HunyuanWorld-Voyager」を正式に発表しました。これは、単一の入力画像から世界の一貫性を持つ3Dポイントクラウドを生成するための革新的なビデオ拡散フレームワークで、ユーザーがカスタムのカメラパスに沿って没入型の探索を可能にするものです。

公式によると、これは世界初のネイティブ3D再構築機能を備えた超遠距離世界モデルであり、AI駆動のVR、ゲーム、シミュレーション空間の知能を再定義しています。このモデルは、正確に整合された深度情報とRGBビデオを生成できるだけでなく、後処理なしで高品質な3D再構築に直接使用することが可能です。
直接的な3D出力:COLMAPなどのツールを必要とせず、ポイントクラウドビデオを3D形式にエクスポートし、即時の3Dアプリケーションを実現します。
革新的な3Dメモリ:拡張可能な世界キャッシュ機構を導入し、あらゆるカメラ軌跡の幾何学的一貫性を確保します。
最高性能:スタンフォードのWorldScoreテストで第1位を獲得し、ビデオ生成および3D再構築のベンチマークテストでも優れた性能を示しています。
HunyuanWorld-Voyagerのアーキテクチャには、2つの重要なコンポーネントが含まれます。まず、「世界一貫のビデオ拡散」というコンポーネントは、既存の世界観測に基づいて、正確に整合されたRGBビデオと深度ビデオのシーケンスを生成する統一されたアーキテクチャを提案しており、全体のシーンの一貫性を確保します。次に、「長距離世界探索」というコンポーネントは、効率的な世界キャッシュ機構を使用し、ポイントクラウドの除外と自己回帰推論能力を組み合わせて、反復的なシーン拡張をサポートし、文脈感知の一貫性技術によりスムーズなビデオサンプリングを実現します。
HunyuanWorld-Voyagerモデルをトレーニングするために、研究チームは拡張可能なデータ構築エンジンを構築しました。この自動化されたビデオ再構築パイプラインは、任意の入力ビデオに対してカメラポーズとメトリック深度を自動的に推定できるため、人工ラベリングに依存することなく、大規模で多様なトレーニングデータの構築が可能です。このパイプラインを基盤として、HunyuanWorld-Voyagerは現実世界で収集した映像とUnreal Engineでレンダリングされた映像を統合し、10万以上のビデオクリップを含む大規模なデータセットを構築しました。
実験評価では、HunyuanWorld-Voyagerはビデオ生成品質において優れた結果を示しました。4つのオープンソースのカメラ制御ビデオ生成方法と比較した結果、PSNR、SSIM、LPIPSなどの指標で他のモデルよりも優れており、その優れたビデオ生成品質を証明しています。また、シーン再構築においても、HunyuanWorld-Voyagerの生成ビデオは幾何学的一貫性がより良いことを示しています。
さらに、HunyuanWorld-VoyagerはWorldScoreの静的ベンチマークテストで最高点を記録し、カメラ運動制御と空間一貫性における優位性を証明しています。この成果は、混元世界モデルの可能性を示すだけでなく、今後の3Dシーン生成技術に新たな道を開きます。
ポイント:
🌍 HunyuanWorld-Voyagerは単一の入力画像に基づいて世界一貫性のある3Dポイントクラウドを生成し、ユーザーが没入型の探索を可能にします。
🎥 このモデルは正確に整合された深度情報とRGBビデオを同時に生成し、高品質な3D再構築に適しています。
🏆 複数のテストにおいて、HunyuanWorld-Voyagerはビデオ生成品質とシーン再構築効果で他のモデルを上回っています。
