ウイシューは、UnifoLM-VLA-0の大規模モデルを正式にオープンソース化したことを発表しました。UnifoLMシリーズにおいて、一般的な人型ロボット操作を専門に設計された視覚-言語-動作(VLA)モデルとして、ロボットの脳が単なる「画像と文章の理解」から、「物理的な常識」を持つ embodied 智能へと重要な一歩を踏み出しました。

QQ20260130-093721.jpg

技術的突破:感知から行動への深く融合

UnifoLM-VLA-0は、従来の視覚言語モデル(VLM)が物理的相互作用において抱える制約を打破することを目的としています:

身体的脳の進化:ロボット操作データに基づいた継続的な事前学習を通じて、モデルは物理的世界の相互作用の法則を理解できるようにし、単なる意味論のレベルにとどまらず、です。

空間的な詳細の一致:モデルはテキスト指示と2D/3Dの空間的な詳細を統合しており、複雑な環境における空間的認識と位置推論能力を著しく向上させています。

動力学的制約:アクションのブロック予測および前向き・逆向きの動力学的制約を統合し、長時間にわたるアクションシーケンスの統一的なモデリングを実現しています。

QQ20260130-093737.jpg

開発アーキテクチャ:Qwen2.5-VLに基づく二次進化

ウイシューは、システム的にクリーニングされた多タスクデータセットを用いてモデルを磨き上げました:

コアベース:Qwen2.5-VL-7Bというオープンソースモデルを基盤として構築されています。

効率的なトレーニング:わずか340時間の本物の機械データを使用して離散的なアクション予測のトレーニングを行った結果、高品質なタスクの汎化が実現されました。

パフォーマンス評価:空間理解のベンチマークテストでは、その性能はベースラインモデルを大幅に上回り、特定のモードではGemini-Robotics-ER1.5と同等に達するまでになりました。

QQ20260130-093746.jpg

実戦的な性能:1つの戦略で12種類の複雑なタスクに対応

ウイシューのG1人型ロボットプラットフォームでの検証結果は注目を集めています:

マルチタスクの汎用性:このモデルは、同じ戦略ネットワーク(checkpoint)下で、物体の掴みや配置などの12種類の複雑な作業タスクを安定して完了できます。

強力な耐障害性:実機実験により、外部の乱れにもかかわらず、ロボットは良好な実行の安定性と耐障害性を維持できることを示しています。

現在、ウイシューはGitHubおよびプロジェクトの公式ウェブサイトでモデルコードと関連資料を完全に公開しており、世界中の開発者と共に一般向けの人型ロボットの商業化を促進することを目的としています。