近日,李飛飛團隊發佈的 ESI-Bench(Embodied Spatial Intelligence Benchmark)引起了廣泛關注。該基準不僅被譽爲具身智能界的“ImageNet”,更深刻揭示了當前頂尖大模型在處理物理空間交互時的致命短板。

image.png

ESI-Bench:爲何它是具身智能的新標杆?

過去,AI 空間智能評測大多依賴“被動感知”:即提供幾張最優視角圖片,讓模型進行邏輯推導。這種模式本質上是在測模型的“視力”而非“空間認知能力”。

ESI-Bench 的核心突破在於:強制“感知-行動迴路”(Perception-Action Loop)。

  • 觀察者變行動者: 在 ESI-Bench 中,模型不能坐在原地通過給定的圖片進行判斷,它必須像人類一樣,主動決定去哪裏、看什麼、拿起什麼物體、操作什麼機械結構,通過一系列“交互動作”來獲取隱藏的空間信息。

  • 設計基石: 該基準基於認知心理學家 Elizabeth Spelke 提出的“人類嬰兒核心知識系統”,涵蓋了物體表徵、佈局與幾何、數量表徵、目標導向行動四大維度。

  • 規模與平臺: 包含10個類別、29個子類別、3081個任務實例,構建於 OmniGibson 仿真平臺之上,素材源自 BEHAVIOR-1K 場景庫。

評測發現的三個核心“真相”

研究團隊對 GPT-5、Gemini 系列等目前最前沿的多模態模型進行了深度測試,結果令人深思:

1. 感知不是瓶頸,行動策略纔是核心

測試發現,如果給模型提供最優視角,模型往往能給出準確回答(準確率甚至能從14.6% 暴漲至95.1%)。但當模型被要求“主動找視角”時,準確率卻大幅跳水。

  • 動作盲視(Action Blindness): 模型缺乏導航和操縱策略,錯誤的動作導致視角變差,差視角又引發後續錯誤的判斷,形成級聯失敗。

2. 不完美的3D 重建比2D 圖片更具誤導性

研究推翻了“3D 地圖即萬能藥”的假設。

  • 若輸入完美的上帝視角3D 真值,推理效果確實極佳;但使用當前先進的 VGGT 模型進行實時重建,產生的幾何僞影、遮擋錯誤和深度偏差,反而給推理模型投餵了“有毒數據”,導致效果比單純看2D 圖片還要差。

image.png

3. 元認知缺陷:AI 不知道自己“沒看夠”

這是人類與 AI 最大的認知鴻溝:

  • 認知謹慎性差異: 人類在信息模糊時會主動尋找證僞視角,並在無法確認時降低置信度。

  • 模型幻覺: 模型往往過早停止探索,即便信息極其匱乏,也會以極高的自信給出錯誤結論。團隊稱之爲“元認知缺陷”——模型缺乏內建的“懷疑機制”,無法評估當前信息是否充分。

具身智能的下一步路在何方?

ESI-Bench 的出現,標誌着具身智能評測從“靜態圖文匹配”向“真實物理交互”的範式轉移。正如李飛飛團隊所指出的,要實現真正的空間智能,僅靠堆砌視覺編碼器或增加算力是遠遠不夠的。

未來的具身智能研究,核心挑戰在於賦予模型:

  1. 主動探索的序列決策能力,而非簡單的圖片識別能力;

  2. 更強大的魯棒性,使其能夠在不完美的場景觀測中保持判斷邏輯;

  3. 內建的元認知閉環,讓 AI 能在“不知道答案”時學會去探索,而非產生虛假幻覺。

ESI-Bench 猶如一面鏡子,照出了當前 AI 在物理世界中的“傲慢與無知”。這不僅是一個評測指標,更是指引具身智能從“數字世界”真正走向“物理現實”的一份路線圖。