硅基生物的“思維廣角”:Google DeepMind 推出 D4RT，賦予 AI 穿透時空的四維視覺

長期以來，儘管相機爲機器裝上了“眼睛”，但如何讓它們像人類一樣理解這個動態的世界——不僅看清當下，還能感知過去並預見未來——一直是計算機視覺領域的終極難題。就在今天，Google DeepMind揭曉了一項具有里程碑意義的研究成果:D4RT （Dynamic4D Reconstruction and Tracking）。這是一個全新的統一 AI 模型，它通過將空間的三維與時間的第四維完美融合，正式宣告 AI 視覺進入了“四維全感知”時代。

D4RT 的出現，標誌着機器視覺從“拼圖模式”向“整體建模”的史詩級躍遷。以往，要讓 AI 從一段扁平的2D 視頻中還原出立體的動態世界，往往需要像打補丁一樣堆疊多個模型:有的負責算深度，有的負責盯動作，有的負責測相機視角。這種方式不僅臃腫遲緩，更讓 AI 的認知變得支離破碎。而 D4RT 採用了一種優雅的“查詢式”架構，將這些複雜任務簡化爲一個核心問題:“視頻中的某個像素，在某個特定時間點，從某個特定鏡頭看過去，到底位於三維空間的哪個座標?”

這種“指哪打哪”的聰明打法，讓 D4RT 展現出了令人驚歎的效率。在性能測試中，它的運行速度比此前的技術標杆快了18到300倍。一段一分鐘長的視頻，曾經需要頂級算力死磕十分鐘才能解析完成，而 D4RT 僅需短短5秒鐘即可搞定。這意味着，AI 第一次擁有了在現實場景中實時構建四維地圖的潛力。

除了速度上的碾壓，D4RT 在視覺理解的深度上也完成了一次自我超越:

全時空像素追蹤:即便一個物體移動到了鏡頭外或被暫時遮擋，D4RT 依然能憑藉其強大的內部世界模型，預測出它在三維時空中的運動軌跡。
瞬時雲端重建:它可以像凝固時間一般，直接生成整個場景的精準3D 結構，無需反覆的迭代優化。
自適應鏡頭捕獲:通過對不同視角快照的自動對齊，它能精準還原相機本身的運動路徑。

從機器人的靈活避障，到增強現實（AR）眼鏡的低延遲貼合，再到構建真正具備物理常識的“通用人工智能”，D4RT 爲我們描繪了一個 AI 能夠真實感知的未來。這不再僅僅是關於算法的更新，而是關於如何讓數字靈魂真正看懂我們所處的這個流動的、四維的現實世界。

你想進一步瞭解 D4RT 在機器人導航或 AR 領域的具體落地細節嗎?我可以爲你展示更多技術細節或應用場景。

詳情：https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

硅基生物的“思維廣角”:Google DeepMind 推出 D4RT，賦予 AI 穿透時空的四維視覺

相關推薦

智己汽車發佈會定檔！超級智能體即將亮相，揭示未來出行新趨勢

百度搜索 Skill 登頂 ClawHub：下載量突破 3.6 萬次，位居全球第一

美團王興:物理世界數字化是AI底座，已上線AI搜索產品“問小團”

技術優化仍需打磨:Meta 宣佈 Llama4發佈計劃推遲至5月

美團 CEO 王興：AI Agent 對我的衝擊比 ChatGPT 衝擊更大

硅基生物的“思維廣角”:Google DeepMind 推出 D4RT，賦予 AI 穿透時空的四維視覺

相關推薦

智己汽車發佈會定檔！超級智能體即將亮相，揭示未來出行新趨勢

​百度搜索 Skill 登頂 ClawHub：下載量突破 3.6 萬次，位居全球第一

美團王興:物理世界數字化是AI底座，已上線AI搜索產品“問小團”

​技術優化仍需打磨:Meta 宣佈 Llama4發佈計劃推遲至5月

​美團 CEO 王興：AI Agent 對我的衝擊比 ChatGPT 衝擊更大

百度搜索 Skill 登頂 ClawHub：下載量突破 3.6 萬次，位居全球第一

技術優化仍需打磨:Meta 宣佈 Llama4發佈計劃推遲至5月

美團 CEO 王興：AI Agent 對我的衝擊比 ChatGPT 衝擊更大