具身智能(Embodied AI)領域今日迎來重磅進展。小米正式開源其首代機器人大模型 Xiaomi-Robotics-0。該模型擁有 47億參數,旨在解決現有 VLA(視覺-語言-動作)模型由於推理延遲導致機器人動作遲緩的痛點,實現了在消費級顯卡上的實時推理與高效泛化。

QQ20260212-141446.png

核心架構:大腦與小腦的協同

爲了兼顧通用理解與高頻控制,Xiaomi-Robotics-0採用了創新的 MoT(Mixture-of-Transformers)混合架構:

  • 視覺語言大腦(VLM): 作爲底座,負責解析人類模糊指令並捕捉高清視覺中的空間關係。

  • 動作執行小腦(Action Expert): 嵌入多層 Diffusion Transformer (DiT),通過流匹配技術生成精準的“動作塊(Action Chunk)”,確保物理執行的靈活性。

訓練祕籍:兩階段進化論

小米研發團隊通過嚴謹的訓練配方,平衡了模型的常識理解與體力操作能力:

  1. 跨模態預訓練: 引入 Action Proposal 機制,使 VLM 在保持邏輯推理能力的同時,實現特徵空間與動作空間的對齊。隨後凍結 VLM,專項訓練 DiT 以生成平滑的動作序列。

  2. 後訓練(Post-training): 針對真機運行的“動作斷層”問題,採用異步推理模式。結合 Clean Action Prefix(確保軌跡連續)與 Λ-shape Attention Mask(強制關注當前視覺反饋),使機器人在面對環境突發變化時具備極強的響應敏捷性。

QQ20260212-142413.png

實戰表現:刷新多項 SOTA

在測試中,Xiaomi-Robotics-0展現了統治級的性能:

  • 仿真標杆: 在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真測試中,擊敗了30種對比模型,均取得當前最優成績(SOTA)。

  • 真機泛化: 在雙臂機器人平臺上,無論是拆解積木還是摺疊柔性毛巾,模型均表現出極高的手眼協調性與物理泛化能力。

開源生態

小米此次全面開放了技術資源,包括 技術主頁開源代碼 以及在 Hugging Face 發佈的 模型權重,旨在通過社區力量共同推動具身智能的邊界。

  • 技術主頁:https://xiaomi-robotics-0.github.io
  • 開源代碼:https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
  • 模型權重:https://huggingface.co/XiaomiRobotics