清華大學存儲實驗室與騰訊混元AI Infra團隊近日聯合宣佈,在國際機器學習系統頂級會議MLSys2026舉辦的MoE模型推理優化挑戰賽中榮獲全球冠軍。

QQ20260525-090728.jpg

面對萬億參數時代混合專家(MoE)架構在異構芯片(NPU)上的推理性能瓶頸,聯合團隊針對官方指定模型及NPU硬件設計了全鏈路優化方案。通過引入按專家拆分雙核任務的E-Shard策略、PSUM三維張量批量讀出、打散輸出至多Bank併發的GEMV路徑,以及利用標量引擎降低初始搬運延遲等組合拳,團隊成功攻克了數據搬運不充分、激活反覆搬運等底層算子痛點。

同時,針對注意力模塊,團隊重構片上數據佈局並融合Transformer關鍵算子,實現了比特級高精度對齊。

QQ20260525-090739.jpg

圖3:MoE 優化結構示意圖,包含E-Shard專家切分、連續 DMA、PSUM/GEMV併發、冷啓動流水和預取控制。

在此次角逐中,團隊還聯合研發了基於Agent的推理算子優化器“Knight”,通過方案提出、代碼落地與覆盤迭代的自動化閉環,大幅拓展了優化搜索空間。最終,該方案將模型端到端推理時間由14.91s縮短至3.56s,性能加速達4.1倍;單步解碼延遲從12.63ms降至5.45ms,權重加載期間的DMA引擎利用率攀升至約80%。

擊敗Stanford、MIT等國際頂尖高校奪冠,不僅彰顯了我國團隊在大模型底層系統適配與算子優化上的深厚積累,也爲未來超節點算力平臺部署萬億參數MoE模型提供了極具價值的工程範式。