李飛飛團隊 ESI-Bench 深度解讀：讓 AI 從“旁觀者”進化爲“行動者”

近日，李飛飛團隊發佈的 ESI-Bench（Embodied Spatial Intelligence Benchmark）引起了廣泛關注。該基準不僅被譽爲具身智能界的“ImageNet”，更深刻揭示了當前頂尖大模型在處理物理空間交互時的致命短板。

過去，AI 空間智能評測大多依賴“被動感知”:即提供幾張最優視角圖片，讓模型進行邏輯推導。這種模式本質上是在測模型的“視力”而非“空間認知能力”。

ESI-Bench 的核心突破在於:強制“感知-行動迴路”（Perception-Action Loop）。

觀察者變行動者: 在 ESI-Bench 中，模型不能坐在原地通過給定的圖片進行判斷，它必須像人類一樣，主動決定去哪裏、看什麼、拿起什麼物體、操作什麼機械結構，通過一系列“交互動作”來獲取隱藏的空間信息。
設計基石: 該基準基於認知心理學家 Elizabeth Spelke 提出的“人類嬰兒核心知識系統”，涵蓋了物體表徵、佈局與幾何、數量表徵、目標導向行動四大維度。
規模與平臺: 包含10個類別、29個子類別、3081個任務實例，構建於 OmniGibson 仿真平臺之上，素材源自 BEHAVIOR-1K 場景庫。

研究團隊對 GPT-5、Gemini 系列等目前最前沿的多模態模型進行了深度測試，結果令人深思:

測試發現，如果給模型提供最優視角，模型往往能給出準確回答（準確率甚至能從14.6% 暴漲至95.1%）。但當模型被要求“主動找視角”時，準確率卻大幅跳水。

研究推翻了“3D 地圖即萬能藥”的假設。

若輸入完美的上帝視角3D 真值，推理效果確實極佳;但使用當前先進的 VGGT 模型進行實時重建，產生的幾何僞影、遮擋錯誤和深度偏差，反而給推理模型投餵了“有毒數據”，導致效果比單純看2D 圖片還要差。

這是人類與 AI 最大的認知鴻溝:

認知謹慎性差異: 人類在信息模糊時會主動尋找證僞視角，並在無法確認時降低置信度。
模型幻覺: 模型往往過早停止探索，即便信息極其匱乏，也會以極高的自信給出錯誤結論。團隊稱之爲“元認知缺陷”——模型缺乏內建的“懷疑機制”，無法評估當前信息是否充分。

ESI-Bench 的出現，標誌着具身智能評測從“靜態圖文匹配”向“真實物理交互”的範式轉移。正如李飛飛團隊所指出的，要實現真正的空間智能，僅靠堆砌視覺編碼器或增加算力是遠遠不夠的。

未來的具身智能研究，核心挑戰在於賦予模型:

ESI-Bench 猶如一面鏡子，照出了當前 AI 在物理世界中的“傲慢與無知”。這不僅是一個評測指標，更是指引具身智能從“數字世界”真正走向“物理現實”的一份路線圖。

從零開始預訓練，螞蟻靈波發佈具身原生世界動作模型LingBot-VA2.0