傳統的 Transformer 模型在處理重複性知識時往往顯得有些“浪費”,每次遇到相同的模式都需要重新計算,這不僅消耗深度也浪費了計算資源。爲了打破這一瓶頸,DeepSeek 的研究團隊近日推出了一項名爲 Engram 的創新模塊,爲稀疏大語言模型(LLM)引入了一個高效的“條件記憶軸”。

與現有的混合專家模型(MoE)不同,Engram 並不是要取代它,而是作爲一種補充,將經典的 N-gram 嵌入技術現代化,轉化爲一種可擴展的、查詢複雜度爲 $O(1)$ 的查找存儲庫。簡單來說,Engram 就像是模型的一個“快捷記憶本”,專門存儲常見的短語、實體等靜態模式,讓模型骨幹網絡能夠騰出精力去處理更復雜的推理和長距離交互。
在實際應用中,
此外,Engram 在長文本處理上也表現出色。在擴展到32,768個 token 的上下文窗口後,Engram 模型在多查詢“大海撈針”(NIAH)和變量跟蹤等任務中均展現了更強的準確性。這種設計不僅提升了模型的知識儲備,還通過分擔靜態重構任務,實際上變相增加了模型的有效深度,讓 AI 變得更加聰明且高效。
劃重點:
🧠 創新架構:
引入 Engram 模塊,通過 $O(1)$ 哈希查找實現靜態知識的高效檢索,讓模型骨幹更專注於邏輯推理。DeepSeek 📈 性能飛躍: 在同等計算資源下,引入 Engram 的27B 和40B 模型在 MMLU、數學及代碼等核心榜單上全面超越傳統的 MoE 架構。
📑 長文本增強: 該技術顯著提升了模型在長上下文環境下的召回能力,在32k 長度的測試中表現優異,且有效降低了預測所需的層間損耗。
