最近、李飛飛チームが公開したESI-Bench(Embodied Spatial Intelligence Benchmark)は広く注目を集めました。このベンチマークは「具身知能界のImageNet」と称され、現在の優れた大規模モデルが物理空間との相互作用を処理する際の致命的な欠点を深く明らかにしました。

ESI-Bench:なぜこれが具身知能の新たな基準となるのか?
これまでのAIの空間知能評価は、「受動的認識」に依存していました。つまり、最適な視点の画像を提示し、モデルに論理的推論をさせる方法です。このような評価方法は、モデルの「視力」ではなく「空間認知能力」を測っているわけではありません。
ESI-Benchの画期的な点は、「感知-行動ループ」を強制することです。
観測者から行動者へ: ESI-Benchでは、モデルが与えられた画像で判断するだけではいけません。人間のように、どこに行くか、何を見るか、どのような物体を持ち上げるか、どのようなメカニカル構造を操作するかを自ら決定し、一連の「インタラクションアクション」を通じて隠された空間情報を取得する必要があります。
設計の基盤: このベンチマークは、認知心理学者エリザベス・スピルクが提唱した「人間の乳児のコア知識システム」に基づいています。これは、物体の表現、配置と幾何学、数値の表現、目的指向行動の4つの次元を含みます。
規模とプラットフォーム: 10のカテゴリ、29のサブカテゴリ、3081のタスクインスタンスを含んでおり、OmniGibsonシミュレーションプラットフォーム上で構築されています。素材はBEHAVIOR-1Kのシーンライブラリから提供されています。
評価で見えてきた3つの重要な「真実」
研究チームは、GPT-5やGeminiシリーズなど、現在最も先端のマルチモーダルモデルに対して深いテストを行いました。その結果は深刻でした:
1. 感知はネックではない、行動戦略こそが核心
テストの結果、モデルに最適な視点を与えれば、モデルは正確な答えを出すことが多く(正確率は14.6%から95.1%まで急上昇しました)。しかし、モデルに「自ら視点を探し出す」ことを求めると、正確率は大幅に低下します。
行動盲視(Action Blindness): モデルにはナビゲーションや操作の戦略が欠如しており、誤った行動により視点が悪化し、さらにその後の判断に誤りをもたらすという連鎖的な失敗が起こります。
2. 完璧でない3D再構築の方が2D画像よりも誤解を招く
研究は「3Dマップが万能である」という仮説を打ち破りました。
完璧な上帝視点の3D真実データを入力すれば、推論効果は非常に良いですが、現在の最先端のVGGTモデルを使ってリアルタイムで再構築すると、ジオメトリの偽像、遮蔽エラー、深度のバイアスが生じ、それによって推論モデルに「有害なデータ」を供給してしまいます。その結果、単に2D画像を見た場合より悪い結果になります。

3. 元認知の欠陥:AIは自分が「十分見ていない」ことに気づけない
これは人間とAIの最大の認知の隔たりです:
認知の慎重さの違い: 情報が曖昧なとき、人は証拠を探すことを主動的に行い、確認できないときは信頼度を下げます。
モデルの幻覚: モデルは過早に探索を停止し、情報が極めて乏しくても高い自信を持って誤った結論を出します。チームはこれを「元認知の欠陥」と呼び、モデルが内蔵の「疑いのメカニズム」を持っていないため、現在の情報が十分かどうかを評価できません。
具身知能の次の道はどこにあるのか?
ESI-Benchの登場により、具身知能の評価は「静的な画像や文章の一致」から「現実の物理的相互作用」への范式転換を示しました。李飛飛チームが指摘したように、本当の空間知能を達成するためには、視覚エンコーダーを積み重ねたり、計算力を増やすだけでは遠く及ばないと考えられます。
今後の具身知能研究の中心的な課題は、モデルに以下を付与することです:
単なる画像認識能力ではなく、積極的な探索を行う系列的決定能力;
より強力なロバスト性、つまり不完全な場面観測でも論理的判断を維持できる能力;
内蔵された元認知のフィードバックループ、AIが「答えが分からない」と感じたときに探索を行うことができるようにし、偽りの幻覚を生まないようにする。
ESI-Benchは、現在のAIが物理世界における「傲慢と無知」を照らす鏡です。これは単なる評価指標ではなく、具身知能が「デジタル世界」から「物理的現実」へ真正に移行するための地図とも言えます。
