清華聯合騰訊混元斬獲MLSys2026MoE推理挑戰賽冠軍，NPU推理提速4.1倍

清華大學存儲實驗室與騰訊混元AI Infra團隊近日聯合宣佈，在國際機器學習系統頂級會議MLSys2026舉辦的MoE模型推理優化挑戰賽中榮獲全球冠軍。

面對萬億參數時代混合專家（MoE）架構在異構芯片(NPU)上的推理性能瓶頸，聯合團隊針對官方指定模型及NPU硬件設計了全鏈路優化方案。通過引入按專家拆分雙核任務的E-Shard策略、PSUM三維張量批量讀出、打散輸出至多Bank併發的GEMV路徑，以及利用標量引擎降低初始搬運延遲等組合拳，團隊成功攻克了數據搬運不充分、激活反覆搬運等底層算子痛點。

同時，針對注意力模塊，團隊重構片上數據佈局並融合Transformer關鍵算子，實現了比特級高精度對齊。

圖3:MoE 優化結構示意圖，包含E-Shard專家切分、連續 DMA、PSUM/GEMV併發、冷啓動流水和預取控制。

在此次角逐中，團隊還聯合研發了基於Agent的推理算子優化器“Knight”，通過方案提出、代碼落地與覆盤迭代的自動化閉環，大幅拓展了優化搜索空間。最終，該方案將模型端到端推理時間由14.91s縮短至3.56s，性能加速達4.1倍;單步解碼延遲從12.63ms降至5.45ms，權重加載期間的DMA引擎利用率攀升至約80%。

擊敗Stanford、MIT等國際頂尖高校奪冠，不僅彰顯了我國團隊在大模型底層系統適配與算子優化上的深厚積累，也爲未來超節點算力平臺部署萬億參數MoE模型提供了極具價值的工程範式。

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

OpenAI前研究員田永龍已加入騰訊，或將擔任混元多模態模型負責人，主導視覺語言模型（VLM）研發。消息尚未官宣但備受業界關注，繼姚順雨之後，他成爲混元團隊引進的又一核心人才，顯示騰訊正加速強化多模態大模型領域的人才與技術佈局。

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%

騰訊混元聯合上海交大、新加坡南洋理工、天津大學、北大、復旦等機構，推出首個通用指令驅動音頻編輯基準測試集MMAE。該基準針對AI編輯現有音頻的能力，彌補了當前音頻生成領域“編輯”能力的不足，爲多任務音頻編輯研究提供了重要評估標準。

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

騰訊混元團隊與中國人民大學等機構聯合開源了PlanningBench，這是一個用於評測和訓練大語言模型規劃能力的框架。它系統化地抽象了任務、約束和難度，覆蓋30多種規劃任務類型，支持數據生成與驗證，旨在評估模型的實際規劃能力。

清華聯合騰訊混元斬獲MLSys2026MoE推理挑戰賽冠軍，NPU推理提速4.1倍

相關推薦

調用量火爆致算力承壓，WorkBuddy 完成騰訊混元 Hy3 模型緊急擴容

OpenAI又走一員大將：田永龍疑似投奔騰訊混元，將執掌多模態方向

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

清華聯合騰訊混元斬獲MLSys2026MoE推理挑戰賽冠軍，NPU推理提速4.1倍

相關推薦

調用量火爆致算力承壓，WorkBuddy 完成騰訊混元 Hy3 模型緊急擴容

OpenAI又走一員大將：田永龍疑似投奔騰訊混元，將執掌多模態方向

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

AI 音頻編輯邁入新紀元：騰訊混元聯合多家頂尖機構發佈 MMAE 基準，當前模型精準編輯能力不足 5%

​騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench

騰訊與人大高瓴聯合推出開源規劃評測框架 PlanningBench