螞蟻靈波開源世界模型LingBot-World，高保真高動態，毫秒級實時交互

1月29日，繼連續發佈空間感知與VLA基座模型後，螞蟻靈波科技再次刷新行業預期，開源發佈世界模型 LingBot-World。該模型在視頻質量、動態程度、長時一致性、交互能力等關鍵指標上均媲美 Google Genie3，旨在爲具身智能、自動駕駛及遊戲開發提供高保真、高動態、可實時操控的“數字演練場”。

（圖說:LingBot-World在適用場景、生成時長、動態程度、分辨率等方面均處於業界頂尖水平）

針對視頻生成中最常見的“長時漂移”問題（生成時間一長就可能出現物體變形、細節塌陷、主體消失或場景結構崩壞等現象），LingBot-World 通過多階段訓練以及並行化加速，實現了近 10分鐘的連續穩定無損生成，爲長序列、多步驟的複雜任務訓練提供支撐。

交互性能上，LingBot-World 可實現約16FPS 的生成吞吐，並將端到端交互延遲控制在1秒以內。用戶可通過鍵盤或鼠標實時控制角色與相機視角，畫面隨指令即時反饋。此外，用戶可通過文本觸發環境變化與世界事件，例如調整天氣、改變畫面風格或生成特定事件，並在保持場景幾何關係相對一致的前提下完成變化。

（圖說:一致性壓力測試，鏡頭最長移開60秒後返回，目標物體仍存在且結構一致）

（圖說:高動態環境下，鏡頭長時間移開後返回，車輛形態外觀仍保持一致）

（圖說:鏡頭長時間移開後返回，房屋仍存在且結構一致）

模型具備 Zero-shot 泛化能力，僅需輸入一張真實照片（如城市街景）或遊戲截圖，即可生成可交互的視頻流，無需針對單一場景進行額外訓練或數據採集，從而降低在不同場景中的部署與使用成本。

爲解決世界模型訓練中高質量交互數據匱乏的問題，LingBot-World 採用了混合採集策略:一方面通過清洗大規模的網絡視頻以覆蓋多樣化的場景，另一方面結合遊戲採集與虛幻引擎（UE）合成管線，從渲染層直接提取無 UI 干擾的純淨畫面，並同步記錄操作指令與相機位姿，爲模型學習“動作如何改變環境”提供精確對齊的訓練信號。

具身智能的規模化落地面臨一個核心挑戰——複雜長程任務的真機訓練數據極度稀缺。LingBot-World 憑藉長時序一致性（也即記憶能力）、實時交互響應，以及對"動作-環境變化"因果關係的理解，能夠在數字世界中"想象"物理世界，爲智能體的場景理解和長程任務執行提供了一個低成本、高保真的試錯空間。同時，LingBot-World 支持場景多樣化生成(如光照、擺放位置變化等)，也有助於提升具身智能算法在真實場景中的泛化能力。

隨着“靈波”系列連續發佈三款具身領域大模型，螞蟻的AGI戰略實現了從數字世界到物理感知的關鍵延伸。這標誌着其“基礎模型-通用應用-實體交互”的全棧路徑已然清晰。螞蟻正通過InclusionAI 社區將模型全部開源，和行業共建，探索AGI的邊界。一個旨在深度融合開源開放並服務於真實場景的AGI生態，正加速成型。

目前，LingBot-World 模型權重及推理代碼已面向社區開放。

螞蟻靈波開源世界模型LingBot-World，高保真高動態，毫秒級實時交互

相關推薦

世界模型走入物理世界，螞蟻靈波開源LingBot-VA，讓機器人“先思後行”

2025 年度“十大科技熱詞”揭曉：智能體、具身智能領銜前沿賽道

螞蟻靈波開源 LingBot-World：打造具身智能的“實時可交互”世界模型

螞蟻靈波科技全面開源！雙模機器人新突破，空間感知更精準！

機器人感知新高度：全球首個跨本體視觸覺大模型數據集“白虎-VTouch”正式發佈

螞蟻靈波開源世界模型LingBot-World，高保真高動態，毫秒級實時交互

相關推薦

世界模型走入物理世界，螞蟻靈波開源LingBot-VA，讓機器人“先思後行”

​2025 年度“十大科技熱詞”揭曉：智能體、具身智能領銜前沿賽道

螞蟻靈波開源 LingBot-World：打造具身智能的“實時可交互”世界模型

螞蟻靈波科技全面開源！雙模機器人新突破，空間感知更精準！

機器人感知新高度：全球首個跨本體視觸覺大模型數據集“白虎-VTouch”正式發佈

2025 年度“十大科技熱詞”揭曉：智能體、具身智能領銜前沿賽道