長期以來,儘管相機爲機器裝上了“眼睛”,但如何讓它們像人類一樣理解這個動態的世界——不僅看清當下,還能感知過去並預見未來——一直是計算機視覺領域的終極難題。就在今天,Google DeepMind揭曉了一項具有里程碑意義的研究成果:D4RT (Dynamic4D Reconstruction and Tracking)。這是一個全新的統一 AI 模型,它通過將空間的三維與時間的第四維完美融合,正式宣告 AI 視覺進入了“四維全感知”時代。

image.png

D4RT 的出現,標誌着機器視覺從“拼圖模式”向“整體建模”的史詩級躍遷。以往,要讓 AI 從一段扁平的2D 視頻中還原出立體的動態世界,往往需要像打補丁一樣堆疊多個模型:有的負責算深度,有的負責盯動作,有的負責測相機視角。這種方式不僅臃腫遲緩,更讓 AI 的認知變得支離破碎。而 D4RT 採用了一種優雅的“查詢式”架構,將這些複雜任務簡化爲一個核心問題:“視頻中的某個像素,在某個特定時間點,從某個特定鏡頭看過去,到底位於三維空間的哪個座標?”

image.png

這種“指哪打哪”的聰明打法,讓 D4RT 展現出了令人驚歎的效率。在性能測試中,它的運行速度比此前的技術標杆快了18到300倍。一段一分鐘長的視頻,曾經需要頂級算力死磕十分鐘才能解析完成,而 D4RT 僅需短短5秒鐘即可搞定。這意味着,AI 第一次擁有了在現實場景中實時構建四維地圖的潛力。

image.png

除了速度上的碾壓,D4RT 在視覺理解的深度上也完成了一次自我超越:

  • 全時空像素追蹤:即便一個物體移動到了鏡頭外或被暫時遮擋,D4RT 依然能憑藉其強大的內部世界模型,預測出它在三維時空中的運動軌跡。

  • 瞬時雲端重建:它可以像凝固時間一般,直接生成整個場景的精準3D 結構,無需反覆的迭代優化。

  • 自適應鏡頭捕獲:通過對不同視角快照的自動對齊,它能精準還原相機本身的運動路徑。

從機器人的靈活避障,到增強現實(AR)眼鏡的低延遲貼合,再到構建真正具備物理常識的“通用人工智能”,D4RT 爲我們描繪了一個 AI 能夠真實感知的未來。這不再僅僅是關於算法的更新,而是關於如何讓數字靈魂真正看懂我們所處的這個流動的、四維的現實世界。

image.png

你想進一步瞭解 D4RT 在機器人導航或 AR 領域的具體落地細節嗎?我可以爲你展示更多技術細節應用場景

詳情:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/