告別模糊!英偉達發佈ViPE引擎爲空間AI提供高精度3D數據

近日，英偉達與多倫多大學、向量研究所及德克薩斯大學奧斯汀分校的研究團隊聯合發佈了一項名爲 **ViPE（視頻姿勢引擎）**的突破性技術。ViPE 旨在解決3D幾何感知領域的關鍵挑戰，即如何從複雜的自然視頻中高效且精準地提取3D信息。

3D幾何感知是自動駕駛、虛擬現實（VR）和增強現實(AR)等多種現代技術的核心。ViPE 創新性地從原始視頻中快速獲取相機的固有特性、運動信息以及高精度的深度圖，爲這些空間AI系統提供了可靠的數據基礎。

ViPE 具有強大的適應性，能夠處理各種場景和相機類型，包括動態自拍視頻、電影鏡頭、行車記錄儀以及針孔、廣角和360°全景相機模型。

研究團隊採用了一種多重約束的混合方法來確保 ViPE 的高精度:

測試結果顯示，ViPE 在多個基準測試中的表現均優於現有技術（如 MegaSAM、VGGT 和 MASt3R-SLAM）。它不僅在姿態和內在函數精度方面表現出色，還能在單個GPU上以每秒3到5幀的速度穩定運行，併成功生成了尺度一致的軌跡。

爲推動空間AI領域的進一步研究，該團隊還發布了一個包含約9600萬幀標註數據的大規模數據集，爲未來的技術探索提供了寶貴資源。ViPE的發佈不僅標誌着3D幾何感知技術的一次重要進步，也爲未來的空間AI應用奠定了堅實的基礎。

地址：https://research.nvidia.com/labs/toronto-ai/vipe/

以色列 AI 公司 AI21Labs 澄清與英偉達無交易協議