同じ計算力とデータでも、なぜ一部のモデルはより良い効果を発揮するのでしょうか。
3月16日、

この突破はすぐにシリコンバレーのAI界を揺るがし、ソーシャルメディアでは「Kimiからの印象深い仕事(Impressive work from Kimi)」と公開的に評価されました。
Jerry Tworek(OpenAI o1の主な開発者): これを「ディープラーニング2.0」の始まりと呼びました。
Andrej Karpathy(元OpenAI共同創設者): 行業が「Attention is All You Need」の理解にはまだ掘り下げの余地があると感嘆しました。
なぜ「伝統的な地盤」を動かす必要があるのか?
従来の残差接続は、深層ネットワークのトレーニングが難しい問題を解決しましたが、「等しい重みで加算」する方法はあまりにも単純すぎました。ネットワークが深くなるにつれて、各層が新たに貢献する情報は膨大な蓄積情報に埋もれてしまい、多くの中間層が「無駄に働く」存在となってしまいます。

Kimiの「エレガントな回転」:
これにより、各層は情報を受け入れるだけではなく、微小な「クエリベクトル」を通じて、前段のどの層からどれだけの情報を抽出するかを積極的かつ選択的に決定するようになりました。大規模なトレーニングにおけるメモリコストを解決するために、チームはまた独自の Block AttnRes 方案を提案しました。ネットワークをいくつかのブロックに分割することで、パフォーマンスを確保しながら、推論遅延の増加を 2% 以内に抑えることができました。

の実験では、このアーキテクチャは非常に高い汎化能力を示しました。GPQA-Diamond科学的推論タスクで 7.5% の飛躍を遂げ、数学およびコード生成タスクでもそれぞれ 3.6% と 3.1% の顕著な向上を達成しました。

創業者
