近日,騰訊 Robotics X 實驗室聯合騰訊混元團隊正式推出專爲具身智能打造的基礎模型 HY-Embodied-0.5。此舉旨在解決通用視覺語言模型(VLM)因缺乏精細三維空間感知與物理交互能力,難以落地物理世界的行業痛點,標誌着大模型認知鏈路正實質性延伸至機器人控制領域。

該系列模型並非通用基座的簡單微調,而是從架構到訓練範式的徹底重構。團隊同步推出兩款主力模型:MoT-2B(總參4B,激活2B)主打端側實時響應,MoE-32B(總參407B,激活32B)追求極致推理性能。

技術上,團隊首創視覺與語言模態非共享參數的混合 Transformer(MoT)架構,配合原生分辨率視覺編碼器 HY-ViT2.0與視覺潛在 Token 機制,有效避免了小模型在多模態訓練中的災難性遺忘。訓練層面,依託超1億條高質量具身專屬數據,結合拒絕採樣微調、強化學習與在線蒸餾等多階段後訓練策略,驅動模型思維鏈自主進化。

性能驗證顯示,MoT-2B 在涵蓋感知、推理、規劃的22項權威評測中斬獲16項最佳,超越 Qwen3-VL-4B 及 RoboBrain2.5等同參數競品;旗艦版 MoE-A32B 綜合成績亦能與 Gemini3.0Pro 等國際標杆抗衡。

實機測試中,搭載該基座的機器人在打包、堆疊等任務上表現優於主流基線模型。這一進展爲具身智能從虛擬仿真走向物理實操提供了高性能的底層基座支撐。