従来のトランスフォーマーモデルは、繰り返しの知識を処理する際に少し「無駄」に感じる場合があります。同じパターンに再び遭遇したときには、毎回再計算が必要で、これは深度にも影響し、計算リソースも浪費します。このボトルネックを打破するために、DeepSeekの研究チームは最近、Engramというイノベーティブなモジュールを発表しました。このモジュールは、スパースな大規模言語モデル(LLM)に効率的な「条件付きメモリ軸」を導入しています。

既存の混合専門家モデル(MoE)とは異なり、Engramはそれを置き換えるものではなく、補完するものです。古典的なN-gram埋め込み技術を現代化し、$O(1)$のクエリ複雑度を持つ検索・保存ライブラリに変換します。簡単に言うと、Engramはモデルの「高速メモ帳」のようなもので、よく使われるフレーズやエンティティなどの静的パターンを格納し、モデルの本体ネットワークがより複雑な推論や長距離の相互作用に集中できるようにします。
実際の応用では、
さらに、Engramは長文処理においても優れた性能を示しています。32,768トークンのコンテキストウィンドウに拡張した後、Engramモデルは多クエリ「海中から針を探す」(NIAH)や変数追跡などのタスクでより高い正確性を示しました。この設計は、モデルの知識蓄積を向上させ、静的再構築タスクを分担することで、実際にはモデルの有効な深さを増し、AIをより賢くそして効率的にしています。
ポイント:
🧠 イノベーティブなアーキテクチャ:
がEngramモジュールを導入し、$O(1)$のハッシュ検索によって静的知識を効率的に検索し、モデルの本体が論理的推論に集中できるようにします。DeepSeek 📈 パフォーマンスの飛躍: 同等な計算リソース下で、Engramを導入した27Bおよび40Bモデルは、MMLU、数学およびコードなど主要なスコアボードで伝統的なMoEアーキテクチャを全面的に上回っています。
📑 長文の強化: この技術はモデルの長文環境下での検出能力を顕著に向上させ、32kの長さのテストで優れた性能を発揮し、予測に必要な層間ロスを効果的に低減しています。
