世界模型走入物理世界，螞蟻靈波開源LingBot-VA，讓機器人“先思後行”

1月30日，繼空間感知模型、具身大模型與世界模型“三連發”後，螞蟻靈波科技今日宣佈開源具身世界模型 LingBot-VA。LingBot-VA 首次提出自迴歸視頻-動作世界建模框架，將大規模視頻生成模型與機器人控制深度融合，模型在生成“下一步世界狀態”的同時，直接推演並輸出對應的動作序列，使機器人能夠像人一樣“邊推演、邊行動”。

在真機評測中，LingBot-VA展現出對複雜物理交互的強適應能力。面對長時序任務（製作早餐、拾取螺絲）、高精度任務(插入試管、拆快遞)以及柔性與關節物體操控(疊衣物、疊褲子)這三大類六項高難度挑戰，僅需30~50 條真機演示數據即可完成適配，且任務成功率相較業界強基線 Pi0.5 平均提升20%。

（圖說:真機評測中，LingBot-VA在多項高難操作任務上性能超越業界標杆 Pi0.5）

在仿真評測中，LingBot-VA在高難度雙臂協同操作基準 RoboTwin2.0上首次將成功率提升至超過 90%，在長時序終身學習基準 LIBERO 上達到98.5% 平均成功率，均刷新了行業紀錄。

（圖說:LingBot-VA 在LIBERO與RoboTwin 2.0仿真基準測試中刷新現有SOTA）

據悉，LingBot-VA 採用 Mixture-of-Transformers（MoT）架構，讓視頻處理與動作控制實現跨模態融合。通過獨特的閉環推演機制，模型在每一步生成時都會納入真實世界的實時反饋，確保持續生成的畫面與動作不偏離物理現實，從而控制機器人完成高難複雜任務。

爲突破大規模視頻世界模型在機器人端側落地的計算瓶頸，LingBot-VA 設計了異步推理管線，將動作預測與電機執行並行化處理;同時引入基於記憶緩存的持久化機制與噪聲歷史增強策略，讓推理時只需更少生成步驟即可輸出穩定、精確的動作指令。這一系列優化使得 LingBot-VA 既擁有大模型的理解深度，又具備真機低延遲控制的響應速度。

螞蟻靈波表示，承接前幾日開源發佈的 LingBot-World（模擬環境）、LingBot-VLA(智能基座)與 LingBot-Depth(空間感知)，LingBot-VA 探索出一條“世界模型賦能具身操作”的全新路徑。螞蟻集團將持續依託 InclusionAI 社區開源開放，與行業共建具身智能基礎能力，加速構建深度融合開源開放、且服務於真實產業場景的AGI生態。

目前，LingBot-VA 的模型權重、推理代碼已全面開源。

世界模型走入物理世界，螞蟻靈波開源LingBot-VA，讓機器人“先思後行”

相關推薦

螞蟻靈波開源世界模型LingBot-World，高保真高動態，毫秒級實時交互

螞蟻靈波科技全面開源！雙模機器人新突破，空間感知更精準！

編程效率暴增：Kimi K2.5 接入 Kimi Code，三倍額度福利限時開啓

遊戲開發者集體“投反對票”：超半數從業者看衰生成式 AI

工業質檢新突破：海康威視發佈“AI質檢員”，精準解決包裝防錯難題