1月30日,繼空間感知模型、具身大模型與世界模型“三連發”後,螞蟻靈波科技今日宣佈開源具身世界模型 LingBot-VA。LingBot-VA 首次提出自迴歸視頻-動作世界建模框架,將大規模視頻生成模型與機器人控制深度融合,模型在生成“下一步世界狀態”的同時,直接推演並輸出對應的動作序列,使機器人能夠像人一樣“邊推演、邊行動”。
在真機評測中,LingBot-VA展現出對複雜物理交互的強適應能力。面對長時序任務(製作早餐、拾取螺絲)、高精度任務(插入試管、拆快遞)以及柔性與關節物體操控(疊衣物、疊褲子)這三大類六項高難度挑戰,僅需30~50 條真機演示數據即可完成適配,且任務成功率相較業界強基線 Pi0.5 平均提升20%。

(圖說:真機評測中,LingBot-VA在多項高難操作任務上性能超越業界標杆 Pi0.5)
在仿真評測中,LingBot-VA在高難度雙臂協同操作基準 RoboTwin2.0上首次將成功率提升至超過 90%,在長時序終身學習基準 LIBERO 上達到98.5% 平均成功率,均刷新了行業紀錄。

(圖說:LingBot-VA 在LIBERO與RoboTwin 2.0仿真基準測試中刷新現有SOTA)
據悉,LingBot-VA 採用 Mixture-of-Transformers(MoT)架構,讓視頻處理與動作控制實現跨模態融合。通過獨特的閉環推演機制,模型在每一步生成時都會納入真實世界的實時反饋,確保持續生成的畫面與動作不偏離物理現實,從而控制機器人完成高難複雜任務。
爲突破大規模視頻世界模型在機器人端側落地的計算瓶頸,LingBot-VA 設計了異步推理管線,將動作預測與電機執行並行化處理;同時引入基於記憶緩存的持久化機制與噪聲歷史增強策略,讓推理時只需更少生成步驟即可輸出穩定、精確的動作指令。這一系列優化使得 LingBot-VA 既擁有大模型的理解深度,又具備真機低延遲控制的響應速度。
螞蟻靈波表示,承接前幾日開源發佈的 LingBot-World(模擬環境)、LingBot-VLA(智能基座)與 LingBot-Depth(空間感知),LingBot-VA 探索出一條“世界模型賦能具身操作”的全新路徑。螞蟻集團將持續依託 InclusionAI 社區開源開放,與行業共建具身智能基礎能力,加速構建深度融合開源開放、且服務於真實產業場景的AGI生態。
目前,LingBot-VA 的模型權重、推理代碼已全面開源。
