5月29日、自変数ロボットチームは世界初の「イベントレベル予測」を基盤とした身体知能世界モデルWALL-WMを正式にリリースしました。このモデルは従来の身体知能大規模モデルが時間フレーム単位で機械的に動作を学習するという限界を打ち破り、世界モデルの予測単位をセマンティックなイベントに完全に切り替えました。これにより、ロボットがタスクを理解し実行する能力は新たな段階へと進化しました。

image.png

現在の身体知能業界において、主流の視覚-言語-動作(VLA)モデルは、現在の画像と指示を与えて固定長の動作ブロックを予測する形式を採用しています。このような逐フレームの埋め込み的な訓練方法は、ロボットが微細な物理的な移動を記憶するにとどまり、動作の最終的な目的を無視することが多くなります。カップやテーブルなどシーンの微調整に対応する際に、ロボットは汎化能力の欠如によりトラブルが発生しやすくなります。そのため、自変数チームは関連する学術論文において、テキスト、ビジュアル、およびアクションの3つの情報が現実世界では自然に異なる時間スケールとマニフォルド幾何を持つことを指摘し、これらを単一の共有空間内で統合しようとすると、事前学習された幾何的事前知識が損なわれる可能性があると述べています。

この業界の課題に取り組むため、WALL-WM世界モデルは画期的に「イベント中心」のトレーニングと実行メカニズムを導入しました。ロボットの複雑なタスクは、動作境界に基づいて「伸ばす」「掴む」「移動する」などの明確な意味を持つイベントに分割されます。実際に動作中に、モデルは次のフレームの画像を単に推定するのではなく、「次のイベントによって世界がどのように変化するか」を先読みしてから、そのビジュアルの変化を正確にロボットアームの運動軌跡に翻訳します。

image.png

この新しいアーキテクチャをリアルな物理世界に安定して導入するために、自変数ロボットチームは一連のハードウェア的な工程の再構築を行いました。システムは、同じベース重み下で柔軟に変長動作出力の「イベントモード」とリアルタイムクローズドループ制御の「統一モード」を切り替えることができ、ビデオモデルと動作モデルの一方的な結合分離を実現し、インターネット上のビデオで貴重な動的事前知識が動作データによって早すぎるうちに歪められないようにしました。また、マルチカメラデバイスのジオメトリ感知に関しては、視錐マスクとチューブマスクのメカニズムを導入し、AIが多視点間での真の3次元ジオメトリ対応能力を構築することを強制しています。さらに、意思決定遅延問題に対しては、新しい「段階的思考チェーンデコード」技術を用いることで、論理の説明可能性を保持しながらも、デコード遅延を大幅に短縮しました。

image.png

このモデルが動作能力を備えるための「データピラミッド」を見ると、チームは非常に厳密なシステム工学を構築しました。下層部では百万級のネットワーク一般ビデオによって視覚事前知識を補完し、上層部では本物の機体による介入とエラー修正データに焦点を当てています。4段階の階層化ラベリング、二つのクラスタリングサンプリング、分散型「Muon」トレーニングシステムおよび展開端のFP8量子化を組み合わせることで、WALL-WMは身体知能ビデオ生成品質や3次元空間認識などの複数の指標で全面的にリードし、真の機体Core15L1ベンチマークテストの汎化シナリオで非常に優れたタスク完了スコアを達成しました。現在、このプロジェクトのオープンソースコードおよびホームページは正式に公開されています。