DeepSeek 推出 Engram 模塊：爲稀疏大模型植入“條件記憶軸”，效率大幅提升

傳統的 Transformer 模型在處理重複性知識時往往顯得有些“浪費”，每次遇到相同的模式都需要重新計算，這不僅消耗深度也浪費了計算資源。爲了打破這一瓶頸，DeepSeek 的研究團隊近日推出了一項名爲 Engram 的創新模塊，爲稀疏大語言模型（LLM）引入了一個高效的“條件記憶軸”。

與現有的混合專家模型（MoE）不同，Engram 並不是要取代它，而是作爲一種補充，將經典的 N-gram 嵌入技術現代化，轉化爲一種可擴展的、查詢複雜度爲 $O(1)$ 的查找存儲庫。簡單來說，Engram 就像是模型的一個“快捷記憶本”，專門存儲常見的短語、實體等靜態模式，讓模型骨幹網絡能夠騰出精力去處理更復雜的推理和長距離交互。

在實際應用中，DeepSeek團隊在包含2620億 token 的數據集上進行了預訓練測試。實驗結果顯示，通過將約20% 到25% 的稀疏參數預算分配給 Engram 內存，模型的驗證損失得到了顯著優化。在 Engram-27B 和 Engram-40B 模型的測試中，即便激活參數保持不變，模型在知識庫、推理、代碼和數學等多項基準測試（如 MMLU、GSM8K）中的表現均優於純 MoE 基準模型。

此外，Engram 在長文本處理上也表現出色。在擴展到32，768個 token 的上下文窗口後，Engram 模型在多查詢“大海撈針”（NIAH）和變量跟蹤等任務中均展現了更強的準確性。這種設計不僅提升了模型的知識儲備，還通過分擔靜態重構任務，實際上變相增加了模型的有效深度，讓 AI 變得更加聰明且高效。

劃重點:

🧠 創新架構: DeepSeek引入 Engram 模塊，通過 $O（1）$ 哈希查找實現靜態知識的高效檢索，讓模型骨幹更專注於邏輯推理。
📈 性能飛躍: 在同等計算資源下，引入 Engram 的27B 和40B 模型在 MMLU、數學及代碼等核心榜單上全面超越傳統的 MoE 架構。
📑 長文本增強: 該技術顯著提升了模型在長上下文環境下的召回能力，在32k 長度的測試中表現優異，且有效降低了預測所需的層間損耗。

Transformer 核心作者 Noam Shazeer 加盟 OpenAI，谷歌巨資未能挽留

人工智能領域傳奇研究員、Transformer架構核心作者諾姆·沙澤爾宣佈加盟OpenAI。此前谷歌、OpenAI等巨頭展開激烈競爭，最終OpenAI成功招攬。值得關注的是，不到兩年前谷歌剛以約27億美元技術許可費請回這位“巫師”，其迅速轉投競爭對手引發震動，彰顯AI人才戰白熱化。

DeepSeek 推出 Engram 模塊：爲稀疏大模型植入“條件記憶軸”，效率大幅提升

相關推薦

性能提升 475 倍！富士通推出PHOTON新架構，劍指AI算力瓶頸

Transformer 核心作者 Noam Shazeer 加盟 OpenAI，谷歌巨資未能挽留

哈薩比斯達沃斯再評中國AI：領先僅6個月，但“突破性創新”仍是關鍵差距

馬斯克宣佈 X 平臺推薦算法正式開源:基於 Grok 模型架構，每四周迭代更新

英偉達推出 Nemotron 3：混合架構提升 AI 代理處理效率

​DeepSeek 推出 Engram 模塊：爲稀疏大模型植入“條件記憶軸”，效率大幅提升

相關推薦

性能提升 475 倍！富士通推出PHOTON新架構，劍指AI算力瓶頸

Transformer 核心作者 Noam Shazeer 加盟 OpenAI，谷歌巨資未能挽留

哈薩比斯達沃斯再評中國AI：領先僅6個月，但“突破性創新”仍是關鍵差距

馬斯克宣佈 X 平臺推薦算法正式開源:基於 Grok 模型架構，每四周迭代更新

英偉達推出 Nemotron 3：混合架構提升 AI 代理處理效率

DeepSeek 推出 Engram 模塊：爲稀疏大模型植入“條件記憶軸”，效率大幅提升