同じ計算力とデータでも、なぜ一部のモデルはより良い効果を発揮するのでしょうか。月の暗面(Moonshot AI)は、根本的な論理に直接答える答えを提示しました。

3月16日、Kimiが重要な技術報告書 『Attention Residuals』(注目残差) を発表しました。この研究は、2015年以来ほとんど変更されていない大規模モデルの「基盤」として知られる「残差接続(Residual Connections)」を完全に再構築しています。実験の結果、同じ計算力で新方法で訓練されたモデルの効果は、ベースラインモデルが 1.25倍 の計算力を要した場合と同じであることが証明されました。

image.png

この突破はすぐにシリコンバレーのAI界を揺るがし、ソーシャルメディアでは「Kimiからの印象深い仕事(Impressive work from Kimi)」と公開的に評価されました。

Jerry Tworek(OpenAI o1の主な開発者): これを「ディープラーニング2.0」の始まりと呼びました。

Andrej Karpathy(元OpenAI共同創設者): 行業が「Attention is All You Need」の理解にはまだ掘り下げの余地があると感嘆しました。

なぜ「伝統的な地盤」を動かす必要があるのか?

従来の残差接続は、深層ネットワークのトレーニングが難しい問題を解決しましたが、「等しい重みで加算」する方法はあまりにも単純すぎました。ネットワークが深くなるにつれて、各層が新たに貢献する情報は膨大な蓄積情報に埋もれてしまい、多くの中間層が「無駄に働く」存在となってしまいます。

image.png

Kimiの「エレガントな回転」:

チームは、深さ方向の情報喪失とRNNの時間方向での忘却が数学構造において非常に一致していることに気づきました。そのため、文字列処理に使われていた「注目メカニズム」を横に90度回転させ、縦方向の深さ方向に応用しました。

これにより、各層は情報を受け入れるだけではなく、微小な「クエリベクトル」を通じて、前段のどの層からどれだけの情報を抽出するかを積極的かつ選択的に決定するようになりました。大規模なトレーニングにおけるメモリコストを解決するために、チームはまた独自の Block AttnRes 方案を提案しました。ネットワークをいくつかのブロックに分割することで、パフォーマンスを確保しながら、推論遅延の増加を 2% 以内に抑えることができました。

image.png

の実験では、このアーキテクチャは非常に高い汎化能力を示しました。GPQA-Diamond科学的推論タスクで 7.5% の飛躍を遂げ、数学およびコード生成タスクでもそれぞれ 3.6%3.1% の顕著な向上を達成しました。

image.png

創業者 がGTC2026でのスピーチで述べたように、業界は徐々にScalingの限界に直面しており、オプティマイザーや残差接続などの基本的な構造を再構築する必要があります。多くの人が「上層部の改装」に集中している間、