1月29日,繼連續發佈空間感知與VLA基座模型後,螞蟻靈波科技再次刷新行業預期,開源發佈世界模型 LingBot-World。該模型在視頻質量、動態程度、長時一致性、交互能力等關鍵指標上均媲美 Google Genie3,旨在爲具身智能、自動駕駛及遊戲開發提供高保真、高動態、可實時操控的“數字演練場”。

938207726a4891d44b2dc5f7f1dff1a3.png

(圖說:LingBot-World在適用場景、生成時長、動態程度、分辨率等方面均處於業界頂尖水平)

針對視頻生成中最常見的“長時漂移”問題(生成時間一長就可能出現物體變形、細節塌陷、主體消失或場景結構崩壞等現象),LingBot-World 通過多階段訓練以及並行化加速,實現了近 10分鐘的連續穩定無損生成,爲長序列、多步驟的複雜任務訓練提供支撐。

交互性能上,LingBot-World 可實現約16FPS 的生成吞吐,並將端到端交互延遲控制在1秒以內。用戶可通過鍵盤或鼠標實時控制角色與相機視角,畫面隨指令即時反饋。此外,用戶可通過文本觸發環境變化與世界事件,例如調整天氣、改變畫面風格或生成特定事件,並在保持場景幾何關係相對一致的前提下完成變化。

1b1d8ea41ab1bf07e030606427903a85.png

(圖說:一致性壓力測試,鏡頭最長移開60秒後返回,目標物體仍存在且結構一致)

QQ20260129-100637.png

(圖說:高動態環境下,鏡頭長時間移開後返回,車輛形態外觀仍保持一致)

QQ20260129-100709.png

(圖說:鏡頭長時間移開後返回,房屋仍存在且結構一致)

模型具備 Zero-shot 泛化能力,僅需輸入一張真實照片(如城市街景)或遊戲截圖,即可生成可交互的視頻流,無需針對單一場景進行額外訓練或數據採集,從而降低在不同場景中的部署與使用成本。

爲解決世界模型訓練中高質量交互數據匱乏的問題,LingBot-World 採用了混合採集策略:一方面通過清洗大規模的網絡視頻以覆蓋多樣化的場景,另一方面結合遊戲採集與虛幻引擎(UE)合成管線,從渲染層直接提取無 UI 干擾的純淨畫面,並同步記錄操作指令與相機位姿,爲模型學習“動作如何改變環境”提供精確對齊的訓練信號。

具身智能的規模化落地面臨一個核心挑戰——複雜長程任務的真機訓練數據極度稀缺。LingBot-World 憑藉長時序一致性(也即記憶能力)、實時交互響應,以及對"動作-環境變化"因果關係的理解,能夠在數字世界中"想象"物理世界,爲智能體的場景理解和長程任務執行提供了一個低成本、高保真的試錯空間。同時,LingBot-World 支持場景多樣化生成(如光照、擺放位置變化等),也有助於提升具身智能算法在真實場景中的泛化能力。

隨着“靈波”系列連續發佈三款具身領域大模型,螞蟻的AGI戰略實現了從數字世界到物理感知的關鍵延伸。這標誌着其“基礎模型-通用應用-實體交互”的全棧路徑已然清晰。螞蟻正通過InclusionAI 社區將模型全部開源,和行業共建,探索AGI的邊界。一個旨在深度融合開源開放並服務於真實場景的AGI生態,正加速成型。

目前,LingBot-World 模型權重及推理代碼已面向社區開放。