5月29日,自變量機器人團隊正式發佈了全球首個基於“事件級預測”的具身智能世界模型WALL-WM。該模型打破了傳統具身大模型按時間幀機械學習動作的侷限,將世界模型的預測單位徹底切換爲語義事件,標誌着機器人理解與執行任務的能力邁向了全新階段。

image.png

在當前的具身智能行業中,主流的視覺-語言-動作(VLA)模型普遍採用給定當前畫面和指令、預測固定長度動作塊的模式。這種逐幀填空式的笨拙訓練方式,往往導致機器人只能記住微小的物理挪動,而忽略了動作的最終目標。一旦面對換杯子、換桌子等場景微調,機器人極易因缺乏泛化能力而“翻車”。爲此,自變量團隊在相關學術論文中指出,文本、視覺與動作三類信息在真實世界中天然存在不同的時間尺度和流形幾何,強行在單一共享空間內對齊很容易損害預訓練的幾何先驗。

針對這一行業痛點,WALL-WM世界模型開創性地引入了“以事件爲中心”的訓練與執行機制。它將機器人的複雜任務根據動作邊界切分爲諸如伸手、抓取、移位等具有明確語義的事件關節。在實際運行中,模型不再死板地推算下一幀畫面,而是先對“下一個事件會導致世界發生何種變化”進行超前預演,隨後再將這種視覺變化精準翻譯爲機械臂的運動軌跡。

image.png

爲了讓這一全新架構在真實物理世界中穩定落地,自變量機器人團隊進行了一系列的硬核工程重構。系統不僅支持在同一個基座權重下靈活切換變長動作輸出的“事件模式”與實時閉環控制的“統一模式”,還實現了視頻模型與動作模型的單向耦合分工生長,有效避免了互聯網視頻中寶貴的動態先驗被動作數據過早帶偏。此外,針對多攝像頭設備的幾何感知,模型引入了視錐掩碼與管狀掩碼機制,強迫AI建立跨視角的真實三維幾何對應能力;而在決策延遲問題上,則通過全新的“階梯式思維鏈解碼”技術,在保留邏輯可解釋性的同時大幅降低了解碼延遲。

image.png

從支撐該模型長出動作能力的“數據金字塔”來看,團隊同樣構建了極其嚴密的系統工程。底層依託百萬級網絡通用視頻補足視覺先驗,頂層則聚焦真機接管與糾錯數據。配合四級層級化標註、雙聚類採樣、分佈式“Muon”訓練系統以及部署端的FP8量化,WALL-WM不僅在具身視頻生成質量和三維空間感知等多項指標上全面領跑,更在真機Core15L1基準測試的泛化場景中取得了極爲優秀的任務完成分數。目前,該項目的開源代碼及主頁已正式對外公開。