最近、銀河コンピュータは北京大学、アデレード大学、浙江大学などのチームと共同で、世界初の跨本体全域ビューをカバーするナビゲーションベースの大規模モデル—NavFoM(Navigation Foundation Model)を発表しました。この革新的なモデルは、視覚と言語ナビゲーション、目的指向ナビゲーション、視覚追跡、自律走行など、さまざまな応用シナリオにわたるロボットナビゲーションタスクを統一されたフレームワークに統合することを目的としています。

NavFoMの特徴の一つは、すべてのシナリオをサポートできる能力です。室内または室外のシナリオに関係なく、モデルは見たことのない環境でもゼロサンプル実行が可能で、追加のマッピングやデータ収集が不要です。これは、ユーザーがさまざまな環境にこの技術をより簡単に適用できることを意味しています。面倒な準備作業なしに利用できます。
また、NavFoMは多タスクサポート機能を持っており、自然言語指令を通じて目標追跡や自律ナビゲーションなどのタスクを実行できます。この設計により、異なるロボットが迅速に適応でき、ロボット犬からドローン、車輪式の人形ロボットから自動車まで、さまざまなサイズのロボットがこのフレームワークで効率的に動作できます。
技術的には、NavFoMは2つの重要なイノベーションを導入しています。1つ目はTVI Tokens(Temporal-Viewpoint-Indexed Tokens)で、モデルが時間と方向を理解できるようにします。2つ目はBATS戦略(Budget-Aware Token Sampling)で、計算リソースが限られている状況でもモデルが優れたパフォーマンスを発揮できるようにします。

注目すべきは、NavFoMが大規模なクロストラスデータセットを構築したことです。このデータセットには約800万件のクロストラス・クロスエピステメのナビゲーションデータが含まれており、さらに400万件のオープンクエスチョンデータも含まれています。このトレーニング量は過去の研究の2倍であり、モデルは言語と空間的な意味の理解能力が強化されています。
NavFoMのリリースは、ロボットナビゲーション分野における大きな進歩を示しており、開発者はこのモデルを基盤にして、後続のトレーニングを通じて特定のニーズに適合した応用モデルを開発することができます。
ポイント:
🌟 NavFoMは世界初の跨本体全域ビューをカバーするナビゲーション大規模モデルで、複数のロボットナビゲーションタスクを統一しています。
🏞️ モデルは室内・室外のシナリオでゼロサンプル実行が可能で、追加のマッピングやデータ収集が不要です。
💡 TVI TokensとBATS戦略を導入し、時間と方向の理解および計算リソースが制限されている場合のモデル性能を向上させました。
