近日,螞蟻靈波科技與香港科技大學等高校合作完成的研究論文 《Causal World Modeling for Robot Control》被國際機器人頂級學術會議 Robotics: Science and Systems(RSS)2026接收。

RSS 是全球機器人領域公認的頂級學術會議之一,長期關注機器人學習、控制、感知、規劃與系統等前沿方向,錄用標準嚴格。論文被 RSS 接收,意味着相關研究不僅具有學術創新性,也獲得了國際機器人研究共同體的高度認可。

這項研究的核心,是讓機器人不只是完成動作,還能夠在行動前預測世界會如何變化。論文提出了面向機器人控制的因果世界建模框架,並將其落地爲全球首個開源的自迴歸視頻-動作世界模型 LingBot-VA。該模型能夠在機器人執行任務的過程中,持續預測環境變化,並根據預測結果生成下一步動作指令,使機器人具備類似人類“邊觀察、邊判斷、邊行動”的能力。

對螞蟻靈波而言,此次論文入選 RSS2026,標誌着其在“世界模型驅動機器人控制”方向上的探索獲得國際頂級學術平臺認可,也進一步驗證了 LingBot-VA 作爲具身智能基礎模型的技術價值。未來,這一路線有望推動機器人從依賴指令執行,走向更強的環境理解、任務泛化和自主決策。

image.png

對機器人來說,真正困難的並不只是完成動作,還需要理解這個動作會帶來什麼變化。例如,拿起杯子後桌面會怎樣變化,推動抽屜後物體位置會怎樣改變。LingBot-VA 的核心突破,正是把這種對未來變化的預測能力引入機器人控制,讓機器人先預測世界接下來會變成什麼樣,再根據預測結果決定應該如何行動。

這也是論文強調“因果世界建模”的原因。真實物理世界沿時間向前,因此機器人在預測未來時,也必須按照真實時間順序一步步向前推演。LingBot-VA 將這一因果關係寫入模型結構,每一步預測都只依據此前的觀察和動作,按時間順序展開。這樣一來,模型生成的就不僅僅是一段展示未來的視頻,而是一條可用於機器人控制決策的因果軌跡。這也讓模型具備了更強的長期記憶能力,對於完成長時序、多步驟的真實任務尤其重要。

在技術實現上,LingBot-VA 採用 Mixture-of-Transformers(MoT)架構,將視頻預測和動作生成統一到同一個自迴歸擴散框架中。模型還設計了閉環推演機制,在任務執行過程中持續接收真實環境反饋,減少長時間預測中的誤差累積。

論文在仿真基準和真實機器人任務上系統驗證了 LingBot-VA 的性能。在 RoboTwin2.0的50個雙臂操作任務中,LingBot-VA 在 Easy 和 Hard 設置下分別取得92.0% 和91.1% 的平均成功率;在 LIBERO 基準上達到98.5%。

在真實世界評測中,面對長時序、高精度以及柔性與關節物體操控這三大類6項高難度挑戰,LingBot-VA 僅需50條真實示範數據即可完成適配,整體成功率較業界基線 π0.5提升超過20個百分點,展現出良好的數據效率和泛化能力。

LingBot-VA 已在今年早些時候開放模型權重、訓練與推理代碼。研究人員和開發者可在 Hugging Face 和 GitHub 訪問下載。

論文鏈接:https://arxiv.org/abs/2601.21998

項目主頁:https://technology.robbyant.com/lingbot-va