空間認識とボディモデルに続く、アリバ・レインボーチームは正式にインタラクティブな世界モデルをオープンソース化しました。LingBot-World。このモデルは、ボディインテリジェンスや自動運転などの分野において、高精度で論理的に一貫し、リアルタイムで操作可能な「デジタルシミュレーションの場」を提供することを目的としています。

image.png

LingBot-Worldは、ボディインテリジェンスの訓練における「実機データの不足と高コスト」という核心的な課題を解決します。仮想環境で物理法則をシミュレーションすることで、エージェントは低コストで「試行錯誤」を行い、得た行動因果関係を現実世界に移すことができます。

このモデルは複数の画期的な技術的特徴を持っています:

  • 長期的な一貫性:約10分間の連続した安定した生成を実現しました。カメラが60秒間離れても戻ると、シーン内の物体構造と外見は依然として一貫しており、ビデオ生成における「細節の崩壊」問題を効果的に解決しています。

  • 高精度のリアルタイムインタラクション:アクション条件付き生成(Action-conditioned generation)をサポートし、生成スループットは約 16FPS 、エンドツーエンドのインタラクション遅延は 1秒以内 に制御されています。ユーザーはキーボード、マウスまたはテキストコマンドを通じてリアルタイムで環境を変更でき、例えば天気や視点を調整できます。

  • Zero-shotの汎化能力:混合データ戦略を使用し、ネットワーク動画とUnreal Engine(UE)合成パイプラインを組み合わせてトレーニングを行いました。ユーザーは、単なる本物の都市の写真またはゲームスクリーンショットを入力するだけで、対応するインタラクティブなビデオストリームを生成でき、特定のシーンに対して追加のトレーニングは必要ありません。

現在、アリバ・レインボーチームは、LingBot-Worldのモデル重みと推論コードを全面的にオープンソース化しています。

Website:

https://technology.robbyant.com/lingbot-world

Model:

https://www.modelscope.cn/collections/Robbyant/LingBot-world

https://huggingface.co/collections/robbyant/lingbot-world

Code:

https://github.com/Robbyant/lingbot-world

ポイント:

  • 🌍 デジタルシミュレーションの場:LingBot-Worldは、現実的な物理的因果関係をシミュレーションし、AIロボットに低コストな試行錯誤の空間を提供します。

  • ⏱️ 超長記憶力:10分間の論理的一貫性生成をサポートし、長い動画でよくある「物体の変形」の現象から解放されます。

  • 🎮 リアルタイムの操作感:16FPSの生成速度を持ち、ミリ秒単位の動作応答と即時の環境フィードバックを実現しています。

  • 🖼️ 極めて簡単な導入:Zero-shotの能力を持ち、一枚の写真だけで「幻化」してインタラクティブな3Dシミュレーション世界になります。