機器人告別“逐幀學動作”！全球首個事件級具身智能世界模型發佈

5月29日，自變量機器人團隊正式發佈了全球首個基於“事件級預測”的具身智能世界模型WALL-WM。該模型打破了傳統具身大模型按時間幀機械學習動作的侷限，將世界模型的預測單位徹底切換爲語義事件，標誌着機器人理解與執行任務的能力邁向了全新階段。

在當前的具身智能行業中，主流的視覺-語言-動作（VLA）模型普遍採用給定當前畫面和指令、預測固定長度動作塊的模式。這種逐幀填空式的笨拙訓練方式，往往導致機器人只能記住微小的物理挪動，而忽略了動作的最終目標。一旦面對換杯子、換桌子等場景微調，機器人極易因缺乏泛化能力而“翻車”。爲此，自變量團隊在相關學術論文中指出，文本、視覺與動作三類信息在真實世界中天然存在不同的時間尺度和流形幾何，強行在單一共享空間內對齊很容易損害預訓練的幾何先驗。

針對這一行業痛點，WALL-WM世界模型開創性地引入了“以事件爲中心”的訓練與執行機制。它將機器人的複雜任務根據動作邊界切分爲諸如伸手、抓取、移位等具有明確語義的事件關節。在實際運行中，模型不再死板地推算下一幀畫面，而是先對“下一個事件會導致世界發生何種變化”進行超前預演，隨後再將這種視覺變化精準翻譯爲機械臂的運動軌跡。

爲了讓這一全新架構在真實物理世界中穩定落地，自變量機器人團隊進行了一系列的硬核工程重構。系統不僅支持在同一個基座權重下靈活切換變長動作輸出的“事件模式”與實時閉環控制的“統一模式”，還實現了視頻模型與動作模型的單向耦合分工生長，有效避免了互聯網視頻中寶貴的動態先驗被動作數據過早帶偏。此外，針對多攝像頭設備的幾何感知，模型引入了視錐掩碼與管狀掩碼機制，強迫AI建立跨視角的真實三維幾何對應能力;而在決策延遲問題上，則通過全新的“階梯式思維鏈解碼”技術，在保留邏輯可解釋性的同時大幅降低了解碼延遲。

從支撐該模型長出動作能力的“數據金字塔”來看，團隊同樣構建了極其嚴密的系統工程。底層依託百萬級網絡通用視頻補足視覺先驗，頂層則聚焦真機接管與糾錯數據。配合四級層級化標註、雙聚類採樣、分佈式“Muon”訓練系統以及部署端的FP8量化，WALL-WM不僅在具身視頻生成質量和三維空間感知等多項指標上全面領跑，更在真機Core15L1基準測試的泛化場景中取得了極爲優秀的任務完成分數。目前，該項目的開源代碼及主頁已正式對外公開。

機器人告別“逐幀學動作”！全球首個事件級具身智能世界模型發佈

相關推薦

高德發佈ABot具身體系全棧升級一口氣推出五款核心模型

宇樹王興興在世界互聯網大會放話：人形機器人的ChatGPT時刻，最快兩三年就到

消息稱智元機器人據悉衝刺IPO，目標估值200億美元

機器人其實比汽車好造：逐際動力張巍稱人形機器人大腦已到GPT-3，行業正處指數拐點

面壁智能開源MiniCPM-Robot：1.5B的VLA模型完整放出，個人開發者也能在真機器人上跑操作

機器人告別“逐幀學動作”！全球首個事件級具身智能世界模型發佈

相關推薦

高德發佈ABot具身體系全棧升級 一口氣推出五款核心模型

宇樹王興興在世界互聯網大會放話：人形機器人的ChatGPT時刻，最快兩三年就到

消息稱智元機器人據悉衝刺IPO，目標估值200億美元

機器人其實比汽車好造：逐際動力張巍稱人形機器人大腦已到GPT-3，行業正處指數拐點

面壁智能開源MiniCPM-Robot：1.5B的VLA模型完整放出，個人開發者也能在真機器人上跑操作

高德發佈ABot具身體系全棧升級一口氣推出五款核心模型