具身智能(Embodied AI)領域今日迎來重磅進展。小米正式開源其首代機器人大模型

核心架構:大腦與小腦的協同
爲了兼顧通用理解與高頻控制,Xiaomi-Robotics-0採用了創新的 MoT(Mixture-of-Transformers)混合架構:
視覺語言大腦(VLM): 作爲底座,負責解析人類模糊指令並捕捉高清視覺中的空間關係。
動作執行小腦(Action Expert): 嵌入多層 Diffusion Transformer (DiT),通過流匹配技術生成精準的“動作塊(Action Chunk)”,確保物理執行的靈活性。
訓練祕籍:兩階段進化論
小米研發團隊通過嚴謹的訓練配方,平衡了模型的常識理解與體力操作能力:
跨模態預訓練: 引入 Action Proposal 機制,使 VLM 在保持邏輯推理能力的同時,實現特徵空間與動作空間的對齊。隨後凍結 VLM,專項訓練 DiT 以生成平滑的動作序列。
後訓練(Post-training): 針對真機運行的“動作斷層”問題,採用異步推理模式。結合 Clean Action Prefix(確保軌跡連續)與 Λ-shape Attention Mask(強制關注當前視覺反饋),使機器人在面對環境突發變化時具備極強的響應敏捷性。

實戰表現:刷新多項 SOTA
在測試中,Xiaomi-Robotics-0展現了統治級的性能:
仿真標杆: 在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真測試中,擊敗了30種對比模型,均取得當前最優成績(SOTA)。
真機泛化: 在雙臂機器人平臺上,無論是拆解積木還是摺疊柔性毛巾,模型均表現出極高的手眼協調性與物理泛化能力。
開源生態
小米此次全面開放了技術資源,包括
- 技術主頁:https://xiaomi-robotics-0.github.io
- 開源代碼:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
- 模型權重:https://huggingface.co/XiaomiRobotics
