騰訊發佈 HY-Embodied-0.5具身模型，22項評測16項最佳刷新行業紀錄

近日，騰訊 Robotics X 實驗室聯合騰訊混元團隊正式推出專爲具身智能打造的基礎模型 HY-Embodied-0.5。此舉旨在解決通用視覺語言模型（VLM）因缺乏精細三維空間感知與物理交互能力，難以落地物理世界的行業痛點，標誌着大模型認知鏈路正實質性延伸至機器人控制領域。

該系列模型並非通用基座的簡單微調，而是從架構到訓練範式的徹底重構。團隊同步推出兩款主力模型:MoT-2B（總參4B，激活2B）主打端側實時響應，MoE-32B(總參407B，激活32B)追求極致推理性能。

技術上，團隊首創視覺與語言模態非共享參數的混合 Transformer(MoT)架構，配合原生分辨率視覺編碼器 HY-ViT2.0與視覺潛在 Token 機制，有效避免了小模型在多模態訓練中的災難性遺忘。訓練層面，依託超1億條高質量具身專屬數據，結合拒絕採樣微調、強化學習與在線蒸餾等多階段後訓練策略，驅動模型思維鏈自主進化。

性能驗證顯示，MoT-2B 在涵蓋感知、推理、規劃的22項權威評測中斬獲16項最佳，超越 Qwen3-VL-4B 及 RoboBrain2.5等同參數競品;旗艦版 MoE-A32B 綜合成績亦能與 Gemini3.0Pro 等國際標杆抗衡。

實機測試中，搭載該基座的機器人在打包、堆疊等任務上表現優於主流基線模型。這一進展爲具身智能從虛擬仿真走向物理實操提供了高性能的底層基座支撐。

打破接口壁壘：MiniMax 開源面向 AI Agent 的命令行工具 MMX-CLI

MiniMax推出MMX-CLI命令行工具，專爲AI Agent設計，簡化全模態模型調用流程。該工具解決了接口適配繁瑣、代碼冗餘等問題，使Agent能像原生應用一樣輕鬆調度多種AI能力。用戶可在主流開發環境中一鍵調用編程、視頻生成等功能，無需額外編寫MCP Server或適配複雜接口。

騰訊發佈 HY-Embodied-0.5具身模型，22項評測16項最佳刷新行業紀錄

相關推薦

字節跳動啓動首輪“豆包股”回購，漲幅達30% 強化 AI 人才激勵

金融 AI 規模化元年！13 家銀行砸 1800 億死磕科技，大模型成標配

對話即辦公：阿里千問上線表格 Agent，支持直接生成與編輯 Excel

打破接口壁壘：MiniMax 開源面向 AI Agent 的命令行工具 MMX-CLI

騰訊正式發佈“龍蝦”QBotClaw:國內首個支持主流大模型API自由配置的AI瀏覽器