寒武紀宣佈實現 DeepSeek-V4全系列模型 Day0適配並開源優化代碼

寒武紀今日宣佈，已基於 vLLM 推理框架完成對深度求索（DeepSeek）最新開源模型DeepSeek-V4全系列的“Day0”適配。此次改裝涵蓋285B 參數的 Flash 版本及1.6T 參數的 Pro 版本，確保模型在發佈當日即可在寒武紀硬件平臺上穩定運行，相關改裝代碼已正式開源至 GitHub 社區。

針對DeepSeek-V4獨有的稀疏注意力與壓縮結構，寒武紀通過自研向量融合算子庫 Torch-MLU-Ops 對 Compressor 等核心模塊進行了專項加速。利用 BangC 高性能編程語言，寒武紀團隊編寫了稀疏 Attention 及 GroupGemm 等熱點算子的極致優化內核，並於 vLLM 框架中全面支持 TP/PP/SP/DP/EP 五維混合並行策略、低精度量化及 PD 分離部署。這些技術手段在滿足延遲約束的前提下，顯著提升了端到端推理的詞元吞吐能力。

硬件層面，寒武紀深度挖掘了 MLU 的訪存與排序加速特性，有效應對DeepSeek-V4複雜的索引結構。憑藉高互聯帶寬與低延遲通信優勢，該方案最大化降低了 Prefill 與 Decode 場景下的通信損耗，提升了推理利用率。

行業分析指出，DeepSeek-V4憑藉百萬字（1M）超長上下文及頂尖的邏輯推理性能，對底層算力架構提出了嚴苛要求。寒武紀在模型發佈首日的敏捷適配，不僅展示了國產算力平臺對超大規模、複雜結構模型的承載能力，也預示着國產 AI 產業鏈在軟硬協同層面已進入成熟期，爲大模型應用普惠提供了高效的算力底座支持。

寒武紀成功適配 DeepSeek-V4，推動 AI 模型高效運行

寒武紀公司宣佈，已成功完成對深度求索公司開源AI模型DeepSeek-V4的Day 0適配，實現發佈當天即穩定運行。通過自研融合算子庫Torch-MLU-Ops，對模型中的Compressor、mHC等模塊進行鍼對性加速，大幅提升推理效率。同時採用vLLM推理框架，爲用戶帶來更高效的人工智能體驗。

DeepSeek-V4 發佈！性能直逼頂級閉源模型，百萬上下文 1 元起

DeepSeek於4月24日發佈新一代大模型DeepSeek-V4，性能比肩頂級閉源模型，成爲開源AI里程碑。它支持100萬tokens超長上下文，適用於長文檔分析、代碼生成和多輪任務。同時推出輕量版Flash和標準版，分別滿足快速迭代與深度應用需求。

DeepSeek-V4預覽版正式發佈:1M 超長上下文進入全員普惠時代

深度求索（DeepSeek）發佈DeepSeek-V4預覽版並開源，實現1M超長上下文標準化，在Agent協作、知識及推理性能上領先國內及開源領域。雙版本佈局：Pro版（1.6T參數，激活49B）性能對標頂級閉源模型，Flash版兼顧效率，滿足不同應用需求。

首次全年扭虧爲盈後，寒武紀正面迴應大廠競爭:通用芯片具備更強“技術普適性”

寒武紀董事長陳天石在2025年度業績說明會上回應投資者，針對互聯網大廠自研芯片的競爭壓力，強調公司產品採用“通用型”設計，具備更強的普適性，能應對多樣化AI技術。他指出，大廠芯片多圍繞主營業務提供垂直解決方案，而寒武紀的通用架構更靈活，適應不同場景需求。

寒武紀宣佈實現 DeepSeek-V4全系列模型 Day0適配並開源優化代碼

相關推薦

騰訊雲 TokenHub 發佈 DeepSeek-V4 預覽版，百萬上下文支持全面上線

寒武紀成功適配 DeepSeek-V4，推動 AI 模型高效運行

DeepSeek-V4 發佈！性能直逼頂級閉源模型，百萬上下文 1 元起

DeepSeek-V4預覽版正式發佈:1M 超長上下文進入全員普惠時代

首次全年扭虧爲盈後，寒武紀正面迴應大廠競爭:通用芯片具備更強“技術普適性”