螞蟻集團旗下的具身智能公司靈波科技近日宣佈,正式開源其具身大模型LingBot-VLA。該模型不僅在多項權威基準測試中表現卓越,更同步開放了完整的後訓練代碼庫,旨在降低具身智能領域的研發門檻。

性能表現:多平臺泛化與精準操控

LingBot-VLA在真實環境與仿真場景中均展現了強大的準確性和泛化能力:

真實場景測評:在上海交通大學的 GM-100評測基準中,LingBot-VLA在三個不同機器人平臺上實現了15.7% 的跨本體泛化平均成功率,超越了 Pi0.5的13.0%。

空間感知增強:在引入深度信息後,其平均成功率進一步提升至17.3%。

仿真環境領跑:在 RoboTwin2.0仿真評測中,面對光照、雜物等隨機干擾,其操作成功率比 Pi0.5高出9.92%。

技術核心:高效的後訓練工具鏈

LingBot-VLA的優勢不僅在於性能,更在於其出色的訓練效率與遷移能力:

低成本遷移:得益於大規模預訓練,該模型能以更少的數據量在下游任務中達到超越主流模型的性能。

高吞吐訓練:團隊構建的高效工具鏈在8卡 GPU 配置下,單卡每秒可處理261個樣本,訓練效率是 StarVLA、OpenPI 等主流框架的1.5至2.8倍。

開源內容:全套資源一鍵獲取

靈波科技此次開源力度極大,提供了從權重到工具的全鏈路支持:

模型權重:已在Hugging Face和魔搭社區 (ModelScope)同步上線。

代碼庫:GitHub 倉庫已開放包含數據處理、高效微調及自動化評估在內的全套代碼。

數據集與報告:同步提供了GM-100數據集以及詳盡的技術報告。

LingBot-VLA的全面開源,爲機器人開發者提供了一個真正實用、高效且低成本的 VLA 模型選擇,有望加速具身智能技術從實驗室走向大規模真實應用。