寒武紀今日宣佈,已基於 vLLM 推理框架完成對深度求索(DeepSeek)最新開源模型DeepSeek-V4全系列的“Day0”適配。此次改裝涵蓋285B 參數的 Flash 版本及1.6T 參數的 Pro 版本,確保模型在發佈當日即可在寒武紀硬件平臺上穩定運行,相關改裝代碼已正式開源至 GitHub 社區。

針對DeepSeek-V4獨有的稀疏注意力與壓縮結構,寒武紀通過自研向量融合算子庫 Torch-MLU-Ops 對 Compressor 等核心模塊進行了專項加速。利用 BangC 高性能編程語言,寒武紀團隊編寫了稀疏 Attention 及 GroupGemm 等熱點算子的極致優化內核,並於 vLLM 框架中全面支持 TP/PP/SP/DP/EP 五維混合並行策略、低精度量化及 PD 分離部署。這些技術手段在滿足延遲約束的前提下,顯著提升了端到端推理的詞元吞吐能力。

硬件層面,寒武紀深度挖掘了 MLU 的訪存與排序加速特性,有效應對DeepSeek-V4複雜的索引結構。憑藉高互聯帶寬與低延遲通信優勢,該方案最大化降低了 Prefill 與 Decode 場景下的通信損耗,提升了推理利用率。

行業分析指出,DeepSeek-V4憑藉百萬字(1M)超長上下文及頂尖的邏輯推理性能,對底層算力架構提出了嚴苛要求。寒武紀在模型發佈首日的敏捷適配,不僅展示了國產算力平臺對超大規模、複雜結構模型的承載能力,也預示着國產 AI 產業鏈在軟硬協同層面已進入成熟期,爲大模型應用普惠提供了高效的算力底座支持。