近日,螞蟻集團旗下的螞蟻靈波科技正式宣佈全面開源其具身智能大模型 ——LingBot-VLA 及相關的後訓練代碼。這一舉措不僅標誌着在機器人領域的重大進展,還驗證了該模型在不同類型機器人的跨本體遷移能力,進一步推動了智能機器人的發展。

LingBot-VLA 目前已成功與星海圖、鬆靈、樂聚等多家機器人制造商實現適配。通過螞蟻靈波科技開發的一套後訓練工具鏈,在8卡 GPU 配置下,模型能夠以每秒261個樣本的速度高效訓練。這一訓練效率是目前主流框架 StarVLA、OpenPI 等的1.5到2.8倍,有效降低了數據和算力的成本。

image.png

在海量真實世界數據的基礎上,螞蟻靈波首次系統研究了 VLA 模型在真實機器人任務中的表現,發現隨着預訓練數據的增加,模型在下游任務的成功率也持續提升。從3000小時的數據訓練到最終的20000,模型的成功率不斷上升,顯示出數據量和模型性能之間的良性關係。

更令人振奮的是,LingBot-VLA 在上海交通大學開源的具身評測基準 GM-100測試中,在三種不同的真實機器人平臺上,跨本體泛化的平均成功率從13.0% 提升至15.7%。而在引入深度信息後,成功率進一步攀升至17.3%。

此外,螞蟻靈波科技還於1月27日推出了 LingBot-Depth 空間感知模型。該模型專注於真實場景中的深度補全,利用雙目3D 相機進行 RGB-Depth 數據的採集與驗證。LingBot-Depth 能夠將受噪聲影響的不完整深度傳感器數據轉換爲高質量的三維測量結果,極大提升了環境的深度感知和三維理解能力。

在多項基準測試中,LingBot-Depth 在深度補全和單目深度估計等任務上均表現出色,顯示出其在精度和穩定性方面的行業領先地位。該模型的成功認證也爲機器人和自動駕駛汽車等智能終端提供了更精準的三維視覺能力。