近日,銀河通用聯合北京大學、阿德萊德大學和浙江大學等團隊,推出了全球首個跨本體全域環視的導航基座大模型 ——NavFoM(Navigation Foundation Model)。這一創新性模型旨在將不同的機器人導航任務整合到一個統一的框架中,包括視覺與語言導航、目標導向導航、視覺追蹤以及自主駕駛等多種應用場景。

image.png

NavFoM 的特點之一是其全場景支持能力,不論是室內還是室外場景,模型都能夠在未見過的環境中實現零樣本運行,無需額外的建圖或數據採集。這意味着用戶可以更加便捷地應用該技術於多種環境中,而無需繁瑣的準備工作。

此外,NavFoM 還具備多任務支持功能,能夠通過自然語言指令實現目標跟隨和自主導航等任務。這一設計使得不同機器人能夠快速適配,從機器狗到無人機、從輪式人形到汽車等不同尺寸的機器人均能在這一框架下高效運作。

在技術層面,NavFoM 引入了兩個關鍵創新:首先是 TVI Tokens(Temporal-Viewpoint-Indexed Tokens),使模型具備理解時間和方向的能力;其次是 BATS 策略(Budget-Aware Token Sampling),這允許模型在計算資源有限的情況下依然表現出色。

image.png

值得一提的是,NavFoM 還構建了一個龐大的跨任務數據集,包含約八百萬條跨任務、跨本體的導航數據,此外還包括四百萬條開放問答數據。這一訓練量是以往工作的兩倍,使模型具備更強的語言與空間語義理解能力。

NavFoM 的發佈標誌着機器人導航領域的一次重大進步,開發者可以基於這一模型,通過後續訓練,進一步發展出符合特定需求的應用模型。

劃重點:

🌟 NavFoM 是全球首個跨本體全域環視導航大模型,能夠統一多種機器人導航任務。

🏞️ 模型支持室內外場景的零樣本運行,無需額外建圖和數據採集。

💡 引入 TVI Tokens 和 BATS 策略,提升模型在理解時間、方向及算力受限情況下的表現。