1月29日、連続して空間認識とVLAベースモデルを発表した後、アント・レーボテクノロジーは再び業界の期待を上回り、世界モデル「LingBot-World」を開源公開しました。このモデルは動画品質、動的表現、長期的一貫性、インタラクティブな能力などの重要な指標においてGoogle Genie3と同等であり、身体知能、自動運転、ゲーム開発に高精度で高動的な「デジタルシミュレーション環境」を提供することを目的としています。

(図説:LingBot-Worldは適用シーン、生成時間、動的表現、解像度などにおいて業界トップレベルです)
動画生成における最も一般的な問題である「長期間のずれ」(生成時間が長くなると物体が変形したり、細部が崩れたり、主体が消失したり、シーン構造が崩れたりする現象)に対して、LingBot-Worldは多段階学習と並列化による高速化により、約10分間の連続した安定した無損失な生成を実現し、長期間かつ多段階の複雑なタスク訓練を支えています。
インタラクティブ性能において、LingBot-Worldは約16FPSの生成スループットを実現し、エンドツーエンドのインタラクティブ遅延を1秒以内に抑えることができます。ユーザーはキーボードやマウスを使ってキャラクターおよびカメラの視点をリアルタイムで制御し、画面は指示に応じて即座にフィードバックされます。また、ユーザーはテキストを用いて環境の変化や世界イベントを引き起こすことができ、例えば天候の調整や画面スタイルの変更、特定イベントの生成を行い、シーンの幾何関係を相対的に一貫させながら変化を完了することができます。

(図説:一貫性の圧力テスト、カメラが60秒間離れてから戻った後でも、目標物が存在し構造が一致しています)

(図説:高い動的環境下でカメラが長時間離れてから戻った後でも、車両の形状と外観が一致しています)

(図説:カメラが長時間離れてから戻った後でも、家屋が存在し構造が一致しています)
このモデルはZero-shotの汎化能力を持ち、1枚の真実の写真(例えば都市の風景)やゲームのスクリーンショットを入力するだけで、インタラクティブな動画ストリームを生成できます。単一のシーンのために追加のトレーニングやデータ収集を行う必要がなく、異なるシーンでの展開と使用コストを低減します。
世界モデルのトレーニングにおいて高品質なインタラクティブデータが不足している問題に対処するために、LingBot-Worldは混合収集戦略を採用しています。一方では大規模なネットワーク動画を洗浄して多様なシーンをカバーし、もう一方ではゲームの収集とUnreal Engine(UE)の合成パイプラインを組み合わせ、レンダリング層からUI干渉のない純粋な画面を直接抽出し、操作コマンドとカメラポーズを同期して記録することで、モデルが「動作が環境をどのように変えるか」を学ぶための正確なトレーニング信号を提供します。
身体知能のスケーラブルな導入には、複雑な長距離タスクの本機訓練データが極めて乏しいという核心的な課題があります。LingBot-Worldは長期的な時系列の一貫性(つまり記憶能力)、リアルタイムのインタラクティブ応答、そして「行動-環境変化」の因果関係の理解を通じて、デジタル世界の中で物理世界を「想像」できるようになります。これにより、エージェントの場面理解と長距離タスクの実行にコストが低く、高精度な試行錯誤の空間を提供します。同時に、LingBot-Worldはシーンの多様な生成(例えば照明や配置の変化など)をサポートしており、身体知能アルゴリズムが現実のシーンで汎化能力を向上させるにも役立ちます。
「レーボ」というシリーズで連続して3つの身体知能分野の大規模モデルを発表したことで、アントのAGI戦略はデジタル世界から物理的感知への重要な拡張を果たしました。これは、同社が「基礎モデル-汎用アプリケーション-実体インターフェース」のフルスタックパスが明確になったことを示しています。アントはInclusionAIコミュニティを通じてモデルをすべてオープンソース化し、業界と共同でAGIの境界を探求しています。オープンソースとオープンの融合を目的としたAGIエコシステムが加速して形成されています。
