小米開源首代機器人 VLA 大模型，突破“物理智能”延遲瓶頸

具身智能（Embodied AI）領域今日迎來重磅進展。小米正式開源其首代機器人大模型 Xiaomi-Robotics-0。該模型擁有 47億參數，旨在解決現有 VLA（視覺-語言-動作）模型由於推理延遲導致機器人動作遲緩的痛點，實現了在消費級顯卡上的實時推理與高效泛化。

爲了兼顧通用理解與高頻控制，Xiaomi-Robotics-0採用了創新的 MoT（Mixture-of-Transformers）混合架構:

視覺語言大腦（VLM）: 作爲底座，負責解析人類模糊指令並捕捉高清視覺中的空間關係。
動作執行小腦（Action Expert）: 嵌入多層 Diffusion Transformer （DiT），通過流匹配技術生成精準的“動作塊（Action Chunk）”，確保物理執行的靈活性。

小米研發團隊通過嚴謹的訓練配方，平衡了模型的常識理解與體力操作能力:

跨模態預訓練: 引入 Action Proposal 機制，使 VLM 在保持邏輯推理能力的同時，實現特徵空間與動作空間的對齊。隨後凍結 VLM，專項訓練 DiT 以生成平滑的動作序列。
後訓練（Post-training）: 針對真機運行的“動作斷層”問題，採用異步推理模式。結合 Clean Action Prefix（確保軌跡連續）與 Λ-shape Attention Mask（強制關注當前視覺反饋），使機器人在面對環境突發變化時具備極強的響應敏捷性。

在測試中，Xiaomi-Robotics-0展現了統治級的性能:

小米此次全面開放了技術資源，包括 技術主頁、開源代碼 以及在 Hugging Face 發佈的 模型權重，旨在通過社區力量共同推動具身智能的邊界。

告別算法綁架！Threads 推出 Dear Algo 功能：用 AI 奪回信息流控制權