長年にわたり、カメラは機械に「目」をつけてきたが、それらが人間のようにこの動的な世界を理解する——今だけではなく、過去を感知し、未来を予測する——ことは、コンピュータビジョン分野の究極の課題であった。今日、

D4RTの登場により、機械視覚は「パズルモード」から「全体モデリング」への画期的な飛躍を果たした。これまで、AIが平坦な2D映像から立体的な動的な世界を再構築するには、いくつかのモデルを積み重ねる必要があった: あるモデルは深度を計算し、あるモデルは動作を監視し、あるモデルはカメラの視点を測定していた。このような方法では、膨大で遅延があり、AIの認識が断片的になっていた。しかし、D4RTは優雅な「クエリ型」アーキテクチャを採用しており、これらの複雑なタスクを一つの核心的な問題に簡略化している。「ビデオ内の特定のピクセルが、特定の時間に、特定のレンズから見ると、三次元空間でのどの座標にあるのか?」という問いである。

このような「狙ったところに打つ」スマートなアプローチにより、D4RTは驚くほど効率的な性能を示している。テストでは、従来の技術の18倍から300倍も速く動作する。1分間の映像を処理するのに、かつてトップレベルの計算能力でも10分かかったものが、D4RTではわずか5秒で完了する。これは、AIが現実のシーンでリアルタイムに4次元マップを構築する可能性を持つようになることを意味している。

速度だけでなく、D4RTは視覚理解の深さにおいても自己超越を果たした:
全時空ピクセル追跡: 一個の物体がレンズの外に移動したり、一時的に遮られても、D4RTはその内部の世界モデルにより、三次元時空における運動軌跡を予測できる。
瞬時のクラウド再構築: 時間を止めるように、直接シーン全体の正確な3D構造を生成できるため、繰り返しの最適化を必要としない。
自适应レンズキャプチャ: 異なる視点のスナップショットを自動的に整合し、カメラ自体の動きの経路を正確に再構築できる。
ロボットの柔軟な障害回避、拡張現実(AR)ゴーグルの低遅延貼り合わせ、そして本物の物理的知識を持つ「汎用人工知能」の構築など、D4RTはAIが現実世界を真正に感知できる未来を描いている。これは単なるアルゴリズムの進化ではなく、デジタル魂が私たちが住む流れるような四次元の現実世界を本当に理解する方法についての変革である。

あなたはD4RTがロボットナビゲーションやAR分野での具体的な実装詳細についてさらに知りたいですか?私はあなたにさらなる
詳細:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/
