アリババグループに所属する身体知能企業であるリンボテクノロジーは、近日、自社の身体知能大モデル「LingBot-VLA」を正式にオープンソース化したことを発表しました。このモデルは、多くの権威あるベンチマークテストで優れた性能を示し、さらに完全な後処理コードライブラリも同時に公開しており、身体知能分野の研究開発のハードルを下げることを目的としています。
パフォーマンス: 多様なプラットフォームでの汎用性と正確な操作
LingBot-VLAは、実際の環境とシミュレーションの両方で高い正確さと汎用性を示しています:
実際の環境評価: 上海交通大学のGM-100評価基準において、LingBot-VLAは3つの異なるロボットプラットフォームで平均15.7%のクロスボディ汎用成功率を達成し、Pi0.5の13.0%を上回りました。
空間認識の強化: 深度情報を導入したことで、平均成功率はさらに17.3%まで向上しました。
シミュレーション環境でのリード: RoboTwin2.0のシミュレーション評価では、明るさや雑物などのランダムな障害に対応し、操作成功率がPi0.5より9.92%高くなりました。
技術の核: 効率的な後処理ツールチェーン
LingBot-VLAの利点はパフォーマンスだけでなく、訓練効率と移行能力にもあります:
低コストな移行: 大規模な事前学習により、このモデルは少ないデータ量で下流タスクで主流モデルを超える性能を達成できます。
高スループットのトレーニング: チームが構築した効率的なツールチェーンは、8枚のGPU搭載構成で、1枚あたり秒間261サンプルを処理でき、StarVLAやOpenPIなどの主流フレームワークよりも1.5〜2.8倍のトレーニング効率があります。
オープンソースの内容: 一括して取得可能なすべてのリソース
リンボテクノロジーは今回、非常に大きなオープンソースの取り組みを実施し、重みからツールに至るまでフルラインのサポートを提供しています:
モデルの重み: Hugging Faceとマダコミュニティ(ModelScope)で同時に公開されています。
コードベース: GitHubのリポジトリは、データ処理、効率的なファインチューニング、自動評価を含むすべてのコードが公開されています。
データセットと報告書: GM-100データセットと詳細な技術報告書が同時に提供されます。
LingBot-VLAの全面的なオープンソース化により、ロボット開発者には本当に実用的で効率的かつ低コストなVLAモデルの選択肢が提供され、身体知能技術が研究室から大規模な現実的な応用へと進むことを望んでいます。
