ロボットの3Dビジョンを解放する：原力霊機がGeoVLAフレームワークを発表！従来のVLAモデルを変革！

人工知能とロボット技術が急速に発展する今日、視覚-言語-行動（VLA）モデルは汎用ロボットの構築において重要な鍵と見なされている。しかし、多くの既存のVLAモデル（例えばOpenVLAやRT-2など）は、複雑な非構造化環境を処理する際に深刻な欠点を露呈している。それは「空間の盲目」である。これらのモデルは2D RGB画像を視覚入力として利用しており、3次元空間における性能が制限され、物体の奥行きや位置を正確に判断することが難しい。

この問題を解決するために、原力霊機の研究チームは新しいVLAフレームワーク「GeoVLA」を発表した。このフレームワークは、既存の視覚-言語モデル（VLM）の強力な事前学習能力を維持しつつ、画期的な二つのストリームアーキテクチャを採用している。具体的には、専用のポイントクラウド埋め込みネットワーク（PEN）と空間認識動作エキスパート（3DAE）を取り入れ、ロボットに本物の3次元幾何学的認識能力を備えさせた。この設計はシミュレーション環境で優れた性能を示し、現実世界での多様な頑健性テストでも優れた結果を収めている。

GeoVLAのコアロジックは、タスクを分離することにある。「VLMは『何であるか』を理解し、ポイントクラウドネットワークは『どこにあるか』を明確にする」という仕組みだ。この新しくて完全なエンドツーエンドのフレームワークは、セマンティック理解ストリーム、ジオメトリ感知ストリーム、およびアクション生成ストリームという3つの主要なコンポーネントの協働により、モデルがタスクをより正確に行えるようにしている。

多数の実験において、GeoVLAは顕著な優位性を示している。LIBEROベンチマークテストでは、GeoVLAの成功率は97.7%に達し、これまでのSOTAモデルを上回っている。さらにManiSkill2などのより複雑な物理シミュレーションテストにおいても、GeoVLAは非常に優れたパフォーマンスを示しており、特に複雑な物体や視角の変化に対応する際には高い成功率を維持している。

また、GeoVLAは分布外のシーンにおける頑健性が注目すべき点であり、さまざまな不確実性や変化する条件への強力な適応能力を証明している。この突破は、将来的なロボットアプリケーションに新たな可能性をもたらし、スマートロボット技術をさらに高水準へと押し進めるだろう。

プロジェクトのアドレス: https://linsun449.github.io/GeoVLA/

小紅書がInstanceAssembleをオープンソース化！軽量なレイアウト制御生成フレームワークで複雑なマルチインスタンス画像生成の精度がさらに向上

小红书がオープンソース化したInstanceAssembleは、高密度・多オブジェクト・複雑空間関係の画像生成に特化。カスケードモデリングとAssemble-Attentionにより、最小限のパラメータ追加で空間整合性と意味的一貫性を大幅向上。EC・デザイン分野向け産業級ソリューションを提供。....

长城自動車が全面的なアップグレード！ハフ・マングロンが初めて都市部NOAスマート運転を搭載し、スマート運転の普及を加速

ハーバーが初めて都市部NOAを導入し、主力販売モデルに新たな活力を注入。2023年1-9月の販売台数は52.8万台超で、グループ全体の57%を占める。ウェイ牌のスマートドライブシステムに続き、長城の知能自動車技術を推進。....

ロボットの3Dビジョンを解放する：原力霊機がGeoVLAフレームワークを発表！従来のVLAモデルを変革！

関連推奨

小紅書がInstanceAssembleをオープンソース化！軽量なレイアウト制御生成フレームワークで複雑なマルチインスタンス画像生成の精度がさらに向上

AI人材争奪戦が激化：OpenAIやグーグルなどのテクノロジー企業がインターンに高額な給与を提示

5分で習得:研究では、人間が対象的なトレーニングによりAIの合成顔を識別できることが判明

长城自動車が全面的なアップグレード！ハフ・マングロンが初めて都市部NOAスマート運転を搭載し、スマート運転の普及を加速

DeepSeekと元宝がコミュニケーション！AIアシスタントが私たちの生活に次第に入ってきています