傳統的 Transformer 模型在處理重複性知識時往往顯得有些“浪費”,每次遇到相同的模式都需要重新計算,這不僅消耗深度也浪費了計算資源。爲了打破這一瓶頸,DeepSeek 的研究團隊近日推出了一項名爲 Engram 的創新模塊,爲稀疏大語言模型(LLM)引入了一個高效的“條件記憶軸”。

image.png

與現有的混合專家模型(MoE)不同,Engram 並不是要取代它,而是作爲一種補充,將經典的 N-gram 嵌入技術現代化,轉化爲一種可擴展的、查詢複雜度爲 $O(1)$ 的查找存儲庫。簡單來說,Engram 就像是模型的一個“快捷記憶本”,專門存儲常見的短語、實體等靜態模式,讓模型骨幹網絡能夠騰出精力去處理更復雜的推理和長距離交互。

在實際應用中,DeepSeek團隊在包含2620億 token 的數據集上進行了預訓練測試。實驗結果顯示,通過將約20% 到25% 的稀疏參數預算分配給 Engram 內存,模型的驗證損失得到了顯著優化。在 Engram-27B 和 Engram-40B 模型的測試中,即便激活參數保持不變,模型在知識庫、推理、代碼和數學等多項基準測試(如 MMLU、GSM8K)中的表現均優於純 MoE 基準模型。

此外,Engram 在長文本處理上也表現出色。在擴展到32,768個 token 的上下文窗口後,Engram 模型在多查詢“大海撈針”(NIAH)和變量跟蹤等任務中均展現了更強的準確性。這種設計不僅提升了模型的知識儲備,還通過分擔靜態重構任務,實際上變相增加了模型的有效深度,讓 AI 變得更加聰明且高效。

劃重點:

  • 🧠 創新架構: DeepSeek引入 Engram 模塊,通過 $O(1)$ 哈希查找實現靜態知識的高效檢索,讓模型骨幹更專注於邏輯推理。

  • 📈 性能飛躍: 在同等計算資源下,引入 Engram 的27B 和40B 模型在 MMLU、數學及代碼等核心榜單上全面超越傳統的 MoE 架構。

  • 📑 長文本增強: 該技術顯著提升了模型在長上下文環境下的召回能力,在32k 長度的測試中表現優異,且有效降低了預測所需的層間損耗。