DeepSeekがエングラムモジュールを発表：疎な大規模モデルに条件付き記憶軸を組み込む。効率が大幅に向上

従来のトランスフォーマーモデルは、繰り返しの知識を処理する際に少し「無駄」に感じる場合があります。同じパターンに再び遭遇したときには、毎回再計算が必要で、これは深度にも影響し、計算リソースも浪費します。このボトルネックを打破するために、DeepSeekの研究チームは最近、Engramというイノベーティブなモジュールを発表しました。このモジュールは、スパースな大規模言語モデル（LLM）に効率的な「条件付きメモリ軸」を導入しています。

既存の混合専門家モデル（MoE）とは異なり、Engramはそれを置き換えるものではなく、補完するものです。古典的なN-gram埋め込み技術を現代化し、$O(1)$のクエリ複雑度を持つ検索・保存ライブラリに変換します。簡単に言うと、Engramはモデルの「高速メモ帳」のようなもので、よく使われるフレーズやエンティティなどの静的パターンを格納し、モデルの本体ネットワークがより複雑な推論や長距離の相互作用に集中できるようにします。

実際の応用では、DeepSeekチームは2620億トークンを含むデータセットで事前学習テストを行いました。実験結果によると、Engramメモリに約20％から25％のスパースパラメータ予算を割り当てることで、モデルの検証損失が顕著に改善されました。Engram-27BおよびEngram-40Bモデルのテストでは、アクティブパラメータが変わらなかったとしても、知識ベース、推論、コード、数学などにおける基準テスト（MMLU、GSM8Kなど）での性能は純粋なMoE基準モデルを上回りました。

さらに、Engramは長文処理においても優れた性能を示しています。32,768トークンのコンテキストウィンドウに拡張した後、Engramモデルは多クエリ「海中から針を探す」（NIAH）や変数追跡などのタスクでより高い正確性を示しました。この設計は、モデルの知識蓄積を向上させ、静的再構築タスクを分担することで、実際にはモデルの有効な深さを増し、AIをより賢くそして効率的にしています。

ポイント:

🧠 イノベーティブなアーキテクチャ:DeepSeekがEngramモジュールを導入し、$O（1）$のハッシュ検索によって静的知識を効率的に検索し、モデルの本体が論理的推論に集中できるようにします。
📈 パフォーマンスの飛躍: 同等な計算リソース下で、Engramを導入した27Bおよび40Bモデルは、MMLU、数学およびコードなど主要なスコアボードで伝統的なMoEアーキテクチャを全面的に上回っています。
📑 長文の強化: この技術はモデルの長文環境下での検出能力を顕著に向上させ、32kの長さのテストで優れた性能を発揮し、予測に必要な層間ロスを効果的に低減しています。

マスク、Xプラットフォームの推荐アルゴリズムが正式にオープンソース化されたことを発表: Grokモデルアーキテクチャを基にし、4週間ごとに更新される

マスク氏がXプラットフォームの新推薦アルゴリズムをオープンソース化。Grokと同様のTransformerアーキテクチャを採用し、ユーザーインタラクション確率予測によるコンテンツ順位付けを実現。技術の透明性向上と進化を目的とする。....

120人チームが兆円企業を倒す：Runway Gen-4.5がビデオアリーナで優勝し、グーグルとOpenAIに正式に挑戦

Runway社の最新モデルGen-4.5が第三者の盲測プラットフォームVideo ArenaでグーグルのVeo3とOpenAIのSora2Proを下し、初めて小規模チームが頂点に立った大規模モデルとなった。CEOは「研究に集中し、迅速なイテレーション」の実現可能性を強調し、100人対兆円の資金力では、予算ではなく密度によって勝利することができると指摘した。このモデルは独自の時空間混合Transformer構造を採用しており、小規模チームがAI動画生成分野で大きな進歩を遂げたことを示している。

13GBのメモリで数百億規模のモデルを打ち負かす：大華「星漢2.0」が1枚の財務報告書でAIの実用化に答えを出す

大華股份は競合が仕様競争する中、6B視覚モデルを16GBメモリのエッジボックスに実装。Q3純利益44%増の10.6億元。2019年からTransformerを活用した独自データ処理体系「1+2」を構築し、V/M/Lシリーズモデルで効率的なエッジAIを実現。....

Databricksの共同創設者Konwinski氏が警鐘：米国のAI研究の優位性が失われている

Databricksの共同創設者であるAndy Konwinski氏は、米国がAI研究の主導権を中国に譲っていると警告し、これは民主主義にとって生存レベルの脅威だと指摘した。彼は、バークレーとスタンフォードの博士課程の学生からのフィードバックによると、過去1年間で注目すべきAIの新しいアイデアの約半数が中国チームから来ていることを示した。この割合は明らかに増加している。Konwinski氏は2024年にパートナーとともにベンチャーキャピタル会社Laudeを設立し、非営利アクセラレーターLaudを運営している。

DeepSeekがエングラムモジュールを発表：疎な大規模モデルに条件付き記憶軸を組み込む。効率が大幅に向上

関連推奨

ハサビスがダボスで中国AIを再評価：先駆けは6か月だが、画期的なイノベーションが鍵となる格差

マスク、Xプラットフォームの推荐アルゴリズムが正式にオープンソース化されたことを発表: Grokモデルアーキテクチャを基にし、4週間ごとに更新される

120人チームが兆円企業を倒す：Runway Gen-4.5がビデオアリーナで優勝し、グーグルとOpenAIに正式に挑戦

13GBのメモリで数百億規模のモデルを打ち負かす：大華「星漢2.0」が1枚の財務報告書でAIの実用化に答えを出す

Databricksの共同創設者Konwinski氏が警鐘：米国のAI研究の優位性が失われている