近日,英偉達與多倫多大學、向量研究所及德克薩斯大學奧斯汀分校的研究團隊聯合發佈了一項名爲 **ViPE(視頻姿勢引擎)**的突破性技術。ViPE 旨在解決3D幾何感知領域的關鍵挑戰,即如何從複雜的自然視頻中高效且精準地提取3D信息。

QQ20250916-140607.png

技術核心與應用

3D幾何感知是自動駕駛、虛擬現實(VR)和增強現實(AR)等多種現代技術的核心。ViPE 創新性地從原始視頻中快速獲取相機的固有特性、運動信息以及高精度的深度圖,爲這些空間AI系統提供了可靠的數據基礎。

ViPE 具有強大的適應性,能夠處理各種場景和相機類型,包括動態自拍視頻、電影鏡頭、行車記錄儀以及針孔、廣角和360°全景相機模型。

QQ20250916-140635.png

工作原理與性能

研究團隊採用了一種多重約束的混合方法來確保 ViPE 的高精度:

  • 束調整:在關鍵幀上進行密集束調整,以估算相機參數、姿態和深度圖。

  • 密集流與稀疏點約束:引入 DROID-SLAM 網絡的密集流約束和 cuvslam 庫的稀疏點約束,確保穩健性和亞像素精度。

  • 深度正則化:利用單目度量深度網絡,解決尺度模糊性和一致性問題,生成高分辨率且時間一致的深度信息。

測試結果顯示,ViPE 在多個基準測試中的表現均優於現有技術(如 MegaSAM、VGGT 和 MASt3R-SLAM)。它不僅在姿態和內在函數精度方面表現出色,還能在單個GPU上以每秒3到5幀的速度穩定運行,併成功生成了尺度一致的軌跡。

爲推動空間AI領域的進一步研究,該團隊還發布了一個包含約9600萬幀標註數據的大規模數據集,爲未來的技術探索提供了寶貴資源。ViPE的發佈不僅標誌着3D幾何感知技術的一次重要進步,也爲未來的空間AI應用奠定了堅實的基礎。

地址:https://research.nvidia.com/labs/toronto-ai/vipe/