2026年5月、国内の身体知能分野で重要な技術的突破が起こりました。自変数ロボット(X Square Robot)は、最新のVLA(視覚・言語・動作)モデルWall-OSS-0.5のオープンソース化を正式に発表しました。このモデルは、業界で長期間用いられてきた「テスト前微調整」の伝統的な枠組みを打ち破り、タスク固有の微調整なしにリアルなロボット上で「ゼロサンプル」での展開を実現するという画期的な進歩を遂げました。

大モデル メタバース (1)

業界の転換:「カスタムスクリプト」から「汎用脳」へ

長年にわたり、身体知能分野では隠れた課題がありました。多くのモデルは、テスト成績を発表する前に特定のタスクに対して大規模な微調整(Fine-tuning)を行う必要があります。これにより、モデルが本当に「汎用脳」の汎化能力を持っているのか、それとも特定の業務に対する「操作スクリプト」だけを習得しているのかを明確に判断することが困難になりました。

自変数ロボットはWall-OSS-0.5を通じて、新たな答えを提示しました。このモデルは、20種類以上のロボット形態、百万本のトラジェクトリーデータ、そして9,000万本のマルチモーダルテキストデータを基に予訓練されています。タスク固有の微調整を行わず、チームは実際にロボットに直接導入し、17のチャレンジ的なタスク(意味理解、剛体/柔体物操作、精密操作など)をテストしました。

核心的な特徴:予訓練モデルのパフォーマンス飛躍

テスト結果によると、Wall-OSS-0.5の性能は予想を遥かに超えています:

  • ゼロサンプル展開能力: 微調整なしで、400kの予訓練ステップを持つモデルバージョンは、17のゼロサンプルタスクの中で4つのタスクで80点以上(満点100点)を達成しました。特に、「ロープを締める」という予訓練中に登場しなかった柔体物体のタスクでも82点を記録しています。

  • 微調整上限の大幅向上: 特定の微調整が必要な状況において、Wall-OSS-0.5は非常に高い学習効率を示しました。業界の指標であるπ0.5と比較すると、同等のデータ予算下でWall-OSS-0.5の平均タスク進捗は17.5ポイント上回り、精密挿入などの精密操作タスクではほぼ1桁の成功確率向上を示しました。

  • 「能力の再構築」ではなく退化: 実験によって、このモデルが高強度の動作トレーニング後でも、多モーダルな感知能力が損なわれることなく、視覚位置決めや推論能力において「再構築型の進化」を遂げたことが証明されました。

4つの主要な技術が護城河を構築

Wall-OSS-0.5の優れた性能は、研究チームの4つの基本的な技術革新に起因しています:

  1. 勾配ブリッジ(Gradient Bridging): 動作監督信号を直接予訓練メインフレームに注入し、モデルが低レベルの表現において「見る、話す、動く」を統一させました。

  2. 視覚対応トークナイザ: すべての動作トークンが明確な視覚的な意味を保持することを保証し、モデルに真の「物理的意味の推論能力」をもたらしました。

  3. 動作空間監督: トレーニングの中心を細かい高頻度の詳細ではなく、全体のトラジェクトリー構造に焦点を当てることで、収束効率を大幅に向上させました。

  4. DMuon分散最適化: 研究チームは下位システムの最適化を通じて、異種計算コストを100倍低下させ、このような複雑なトレーニング手法が大規模クラスターで実際的に適用可能となりました。

身体知能の歴史的節目

現在、自変数ロボットはWall-OSS-0.5に関連するモデル重み、トレーニングコード、およびデータセットインターフェースをすべてオープンソース化しています。