智元機器人宣佈開源通用具身基座大模型 GO-1(Genie Operator-1),這也是全球首個採用 Vision-Language-Latent-Action (ViLLA) 架構的具身智能模型。此次開源旨在降低具身智能的技術門檻,讓更多開發者能夠參與這一前沿技術的應用與發展。該模型的發佈緊隨其後的是今年1月開源的 AgiBot World 具身智能百萬真機數據集。

GO-1模型的核心是 ViLLA 架構,這一技術突破使得機器人能夠更好地理解人類意圖,執行更加精確的動作。與傳統的 Vision-Language-Action (VLA) 架構相比,ViLLA 通過引入隱式動作標記,成功連接了圖像、文本輸入與機器人的實際動作。該架構的設計分爲三層,首先是 VLM 多模態理解層,它基於 InternVL-2B 構建,具備處理視覺、力覺和語言等多種信息的能力。其次是 Latent Planner 隱式規劃器,能夠實現複雜任務的高層次理解。最後是 Action Expert 動作專家,通過擴散模型生成連續的高精度動作序列,以確保機器人可以執行復雜的操控任務。
此外,智元機器人還推出了 Genie Studio 開發平臺,爲開發者提供全方位的解決方案,包括數據採集、模型訓練、仿真評測等。這一平臺不僅集成了 GO-1模型,還提供了視頻訓練方案和統一訓練框架,極大提升了開發效率,幫助具身智能技術的快速落地。
GO-1模型雖然基於 AgiBot G1機器人的數據進行預訓練,但經過多種機器人平臺的驗證測試,顯示出其良好的可移植性。這一模型已在多個主流仿真平臺上取得了優異的性能表現,展現了其適應不同機器人的能力。
智元機器人鼓勵廣大開發者訪問 GitHub 倉庫下載 GO-1模型,開啓具身智能的開發之旅。無論是資深 AI 研究者還是新手,GO-1都將爲他們提供強大的技術支持。
GitHub:
https://github.com/OpenDriveLab/AgiBot-World
Huggingface:
https://huggingface.co/agibot-world/GO-1
劃重點:
🌟 全球首個開源的 ViLLA 架構模型 GO-1正式推出。
🔧 Genie Studio 開發平臺提供全流程解決方案,助力開發者。
🤖 GO-1模型經過多種平臺測試,展現出良好的可移植性。
