1月30日、空間認識モデル、身体大モデルおよび世界モデルの「三連発」に続き、アント・リンボウテクノロジーは本日、身体世界モデルLingBot-VAのオープンソース化を発表しました。LingBot-VAは、最初に自己回帰型ビデオ-アクション世界モデリングフレームワークを提案し、大規模なビデオ生成モデルとロボット制御を深く統合しています。このモデルは、「次の世界状態」を生成するだけでなく、直接対応するアクションシーケンスを推論して出力することで、ロボットが人のように「推論しながら行動する」ことが可能になります。
実機評価では、LingBot-VAは複雑な物理的相互作用に対して高い適応能力を示しました。長時間のタスク(朝食の準備、ねじの取り上げ)、高精度なタスク(試験管の挿入、荷物の開封)および柔らかさや関節を持つ物体の操作(服のたたみ、ズボンのたたみ)の三大類六つの高難度課題において、わずか30〜50本の実機デモデータで適応が可能であり、業界の強基線Pi0.5に比べてタスク成功率が平均で20%向上しています。

(図説:実機評価において、LingBot-VAは複数の高難度操作タスクで業界の基準Pi0.5を上回っています)
シミュレーション評価では、LingBot-VAは高難度の二本腕協働操作の基準RoboTwin2.0において初めて成功確率を90%を超えた上で、長期的な終身学習の基準LIBEROにおいては平均98.5%の成功率を達成し、ともに業界記録を更新しました。

(図説:LingBot-VAはLIBEROおよびRoboTwin 2.0のシミュレーション基準テストで現在のSOTAを更新しました)
今回のLingBot-VAは、Mixture-of-Transformers(MoT)構造を採用しており、ビデオ処理とアクション制御の跨モーダル融合を実現しています。独自の閉ループ推論メカニズムにより、モデルは毎ステップで現実世界からのリアルタイムフィードバックを取り入れ、常に物理的な現実から外れないように画面とアクションを生成し、高難度かつ複雑なタスクをロボットで遂行できるようにしています。
大規模なビデオ世界モデルをロボット端末に実装する際の計算上のボトルネックを突破するために、LingBot-VAは非同期推論パイプラインを設計し、アクション予測とモーターの実行を並列処理しています。また、記憶キャッシュに基づく永続性メカニズムとノイズ履歴増強戦略を導入し、推論時により少ない生成ステップで安定した、正確なアクション指令が出力されるようにしています。これらの最適化により、LingBot-VAは大規模モデルの理解の深さと実機における低遅延制御の応答速度を両方備えています。
アント・リンボウによると、以前日に公開されたLingBot-World(シミュレーション環境)、LingBot-VLA(知能基盤)およびLingBot-Depth(空間認識)を受け継ぎ、LingBot-VAは「世界モデルによる身体的操作の支援」の新たな道を開拓しました。アントグループはInclusionAIコミュニティを通じて継続的にオープンソース化を行い、業界とともに身体的な知能の基礎能力を共に構築し、真に産業シーンに貢献するAGIエコシステムの構築を加速していく予定です。
