2026年5月,國內具身智能領域迎來重要技術突破。自變量機器人(X Square Robot)正式宣佈開源其最新研發的 VLA(視覺-語言-動作)模型 Wall-OSS-0.5,該模型打破了行業長期以來依賴“考前微調”的傳統範式,實現了未經任務特定微調即可在真實機器人上進行“零樣本”部署的突破。

大模型 元宇宙 (1)

行業破局:從“定製腳本”到“通用大腦”

長期以來,具身智能領域存在一個心照不宣的困境:大多數模型在發佈測試成績前,都需要針對特定任務進行大規模的微調(Fine-tuning)。這導致業界難以界定模型是真正具備了“通用大腦”的泛化能力,還是僅僅掌握了特定崗位的“操作腳本”。

自變量機器人通過 Wall-OSS-0.5給出了全新的回答。該模型在超過20種機器人形態、百萬條軌跡數據以及9000萬條多模態語料庫上完成預訓練。在不對其進行任何針對性任務微調的情況下,團隊直接將其部署在真實機器人上,測試涵蓋了語義理解、剛性/柔性物體操作及精細化操作等17個挑戰性任務。

核心亮點:預訓練模型的性能飛躍

測試數據顯示,Wall-OSS-0.5的表現遠超預期:

  • 零樣本部署能力: 在未經微調的情況下,400k 預訓練步數的模型版本在17個零樣本任務中,有4個任務得分超過80分(滿分100),甚至在“繩子收緊”這一從未在預訓練中出現過的柔性物體任務中也取得了82分。

  • 微調上限顯著提升: 在需要針對性微調的場景中,Wall-OSS-0.5展現了極高的學習效率。對比行業標杆 π0.5,在同等數據預算下,Wall-OSS-0.5的平均任務進度領先17.5分,並在精細化操作任務(如精密插入)中表現出近乎一個數量級的成功率提升。

  • “能力重塑”而非退化: 實驗證明,該模型在高強度動作訓練後,其多模態感知能力不僅未受損,反而在視覺定位和推理能力上獲得了“重塑式”進化。

四項關鍵技術構建護城河

Wall-OSS-0.5的出色表現得益於團隊的四項底層技術創新:

  1. 梯度橋接(Gradient Bridging): 將動作監督信號直接強行注入預訓練主幹,使模型在底層表徵上統一了“看、說、動”。

  2. 視覺對齊 Tokenizer: 確保每一個動作 Token 都承載了明確的視覺語義,賦予了模型真正的“物理含義”推演能力。

  3. 動作空間監督: 將訓練重心聚焦於軌跡的整體結構而非瑣碎的高頻細節,極大提升了收斂效率。

  4. DMuon 分佈式優化: 研發團隊通過底層系統優化,將異構計算開銷降低了100倍,使得這種複雜的訓練配方在大規模集羣上具備了實際落地可能。

具身智能的里程碑

目前,自變量機器人已將 Wall-OSS-0.5的相關模型權重、訓練代碼及數據集接口全棧開源。

行業分析人士指出,Wall-OSS-0.5的出現不僅是單純的模型更新,它重新定義了具身智能的開發範式,即從單純追求“單項任務的成功率”轉向“通用物理直覺的遷移”。對於廣大研究者和開發者而言,這標誌着具身智能基座模型正式進入“可復現、可驗證、可挑戰”的新階段,將極大地加速通用機器人在複雜真實環境中的落地步伐。