螞蟻靈波LingBot-VA論文被機器人頂會RSS2026接收，讓機器人邊推演、邊行動

近日，螞蟻靈波科技與香港科技大學等高校合作完成的研究論文《Causal World Modeling for Robot Control》被國際機器人頂級學術會議 Robotics: Science and Systems（RSS）2026接收。

RSS 是全球機器人領域公認的頂級學術會議之一，長期關注機器人學習、控制、感知、規劃與系統等前沿方向，錄用標準嚴格。論文被 RSS 接收，意味着相關研究不僅具有學術創新性，也獲得了國際機器人研究共同體的高度認可。

這項研究的核心，是讓機器人不只是完成動作，還能夠在行動前預測世界會如何變化。論文提出了面向機器人控制的因果世界建模框架，並將其落地爲全球首個開源的自迴歸視頻-動作世界模型 LingBot-VA。該模型能夠在機器人執行任務的過程中，持續預測環境變化，並根據預測結果生成下一步動作指令，使機器人具備類似人類“邊觀察、邊判斷、邊行動”的能力。

對螞蟻靈波而言，此次論文入選 RSS2026，標誌着其在“世界模型驅動機器人控制”方向上的探索獲得國際頂級學術平臺認可，也進一步驗證了 LingBot-VA 作爲具身智能基礎模型的技術價值。未來，這一路線有望推動機器人從依賴指令執行，走向更強的環境理解、任務泛化和自主決策。

對機器人來說，真正困難的並不只是完成動作，還需要理解這個動作會帶來什麼變化。例如，拿起杯子後桌面會怎樣變化，推動抽屜後物體位置會怎樣改變。LingBot-VA 的核心突破，正是把這種對未來變化的預測能力引入機器人控制，讓機器人先預測世界接下來會變成什麼樣，再根據預測結果決定應該如何行動。

這也是論文強調“因果世界建模”的原因。真實物理世界沿時間向前，因此機器人在預測未來時，也必須按照真實時間順序一步步向前推演。LingBot-VA 將這一因果關係寫入模型結構，每一步預測都只依據此前的觀察和動作，按時間順序展開。這樣一來，模型生成的就不僅僅是一段展示未來的視頻，而是一條可用於機器人控制決策的因果軌跡。這也讓模型具備了更強的長期記憶能力，對於完成長時序、多步驟的真實任務尤其重要。

在技術實現上，LingBot-VA 採用 Mixture-of-Transformers（MoT）架構，將視頻預測和動作生成統一到同一個自迴歸擴散框架中。模型還設計了閉環推演機制，在任務執行過程中持續接收真實環境反饋，減少長時間預測中的誤差累積。

論文在仿真基準和真實機器人任務上系統驗證了 LingBot-VA 的性能。在 RoboTwin2.0的50個雙臂操作任務中，LingBot-VA 在 Easy 和 Hard 設置下分別取得92.0% 和91.1% 的平均成功率;在 LIBERO 基準上達到98.5%。

在真實世界評測中，面對長時序、高精度以及柔性與關節物體操控這三大類6項高難度挑戰，LingBot-VA 僅需50條真實示範數據即可完成適配，整體成功率較業界基線 π0.5提升超過20個百分點，展現出良好的數據效率和泛化能力。

LingBot-VA 已在今年早些時候開放模型權重、訓練與推理代碼。研究人員和開發者可在 Hugging Face 和 GitHub 訪問下載。

論文鏈接:https://arxiv.org/abs/2601.21998

項目主頁:https://technology.robbyant.com/lingbot-va

螞蟻靈波LingBot-VA論文被機器人頂會RSS2026接收，讓機器人邊推演、邊行動

相關推薦

螞蟻百靈發佈新一代原生混合推理模型Ling-3.0-Flash

皮查伊確認Gemini4 已投入訓練，谷歌AI旗艦型號年底見分曉

腦電波訓練機器人：物理AI的下一個突破口藏在人腦信號裏

美團闢謠LongCat模型負責人離職，持續推進國產算力萬億大模型落地

千問辦公悄然開啓內測主打25項企業 IM 能力與多形態產物一站式交付

螞蟻靈波LingBot-VA論文被機器人頂會RSS2026接收，讓機器人邊推演、邊行動

相關推薦

螞蟻百靈發佈新一代原生混合推理模型Ling-3.0-Flash

皮查伊確認Gemini4 已投入訓練，谷歌AI旗艦型號年底見分曉

​腦電波訓練機器人：物理AI的下一個突破口藏在人腦信號裏

美團闢謠LongCat模型負責人離職，持續推進國產算力萬億大模型落地

千問辦公悄然開啓內測 主打25項企業 IM 能力與多形態產物一站式交付

腦電波訓練機器人：物理AI的下一個突破口藏在人腦信號裏

千問辦公悄然開啓內測主打25項企業 IM 能力與多形態產物一站式交付