人工知能とロボット技術が急速に発展する今日、視覚-言語-行動(VLA)モデルは汎用ロボットの構築において重要な鍵と見なされている。しかし、多くの既存のVLAモデル(例えばOpenVLAやRT-2など)は、複雑な非構造化環境を処理する際に深刻な欠点を露呈している。それは「空間の盲目」である。これらのモデルは2D RGB画像を視覚入力として利用しており、3次元空間における性能が制限され、物体の奥行きや位置を正確に判断することが難しい。

この問題を解決するために、原力霊機の研究チームは新しいVLAフレームワーク「GeoVLA」を発表した。このフレームワークは、既存の視覚-言語モデル(VLM)の強力な事前学習能力を維持しつつ、画期的な二つのストリームアーキテクチャを採用している。具体的には、専用のポイントクラウド埋め込みネットワーク(PEN)と空間認識動作エキスパート(3DAE)を取り入れ、ロボットに本物の3次元幾何学的認識能力を備えさせた。この設計はシミュレーション環境で優れた性能を示し、現実世界での多様な頑健性テストでも優れた結果を収めている。
GeoVLAのコアロジックは、タスクを分離することにある。「VLMは『何であるか』を理解し、ポイントクラウドネットワークは『どこにあるか』を明確にする」という仕組みだ。この新しくて完全なエンドツーエンドのフレームワークは、セマンティック理解ストリーム、ジオメトリ感知ストリーム、およびアクション生成ストリームという3つの主要なコンポーネントの協働により、モデルがタスクをより正確に行えるようにしている。

多数の実験において、GeoVLAは顕著な優位性を示している。LIBEROベンチマークテストでは、GeoVLAの成功率は97.7%に達し、これまでのSOTAモデルを上回っている。さらにManiSkill2などのより複雑な物理シミュレーションテストにおいても、GeoVLAは非常に優れたパフォーマンスを示しており、特に複雑な物体や視角の変化に対応する際には高い成功率を維持している。
また、GeoVLAは分布外のシーンにおける頑健性が注目すべき点であり、さまざまな不確実性や変化する条件への強力な適応能力を証明している。この突破は、将来的なロボットアプリケーションに新たな可能性をもたらし、スマートロボット技術をさらに高水準へと押し進めるだろう。
プロジェクトのアドレス: https://linsun449.github.io/GeoVLA/
