长期以来,尽管相机为机器装上了“眼睛”,但如何让它们像人类一样理解这个动态的世界——不仅看清当下,还能感知过去并预见未来——一直是计算机视觉领域的终极难题。就在今天,Google DeepMind揭晓了一项具有里程碑意义的研究成果:D4RT (Dynamic4D Reconstruction and Tracking)。这是一个全新的统一 AI 模型,它通过将空间的三维与时间的第四维完美融合,正式宣告 AI 视觉进入了“四维全感知”时代。

image.png

D4RT 的出现,标志着机器视觉从“拼图模式”向“整体建模”的史诗级跃迁。以往,要让 AI 从一段扁平的2D 视频中还原出立体的动态世界,往往需要像打补丁一样堆叠多个模型:有的负责算深度,有的负责盯动作,有的负责测相机视角。这种方式不仅臃肿迟缓,更让 AI 的认知变得支离破碎。而 D4RT 采用了一种优雅的“查询式”架构,将这些复杂任务简化为一个核心问题:“视频中的某个像素,在某个特定时间点,从某个特定镜头看过去,到底位于三维空间的哪个坐标?”

image.png

这种“指哪打哪”的聪明打法,让 D4RT 展现出了令人惊叹的效率。在性能测试中,它的运行速度比此前的技术标杆快了18到300倍。一段一分钟长的视频,曾经需要顶级算力死磕十分钟才能解析完成,而 D4RT 仅需短短5秒钟即可搞定。这意味着,AI 第一次拥有了在现实场景中实时构建四维地图的潜力。

image.png

除了速度上的碾压,D4RT 在视觉理解的深度上也完成了一次自我超越:

  • 全时空像素追踪:即便一个物体移动到了镜头外或被暂时遮挡,D4RT 依然能凭借其强大的内部世界模型,预测出它在三维时空中的运动轨迹。

  • 瞬时云端重建:它可以像凝固时间一般,直接生成整个场景的精准3D 结构,无需反复的迭代优化。

  • 自适应镜头捕获:通过对不同视角快照的自动对齐,它能精准还原相机本身的运动路径。

从机器人的灵活避障,到增强现实(AR)眼镜的低延迟贴合,再到构建真正具备物理常识的“通用人工智能”,D4RT 为我们描绘了一个 AI 能够真实感知的未来。这不再仅仅是关于算法的更新,而是关于如何让数字灵魂真正看懂我们所处的这个流动的、四维的现实世界。

image.png

你想进一步了解 D4RT 在机器人导航或 AR 领域的具体落地细节吗?我可以为你展示更多技术细节应用场景

详情:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/