人工知能生成コンテンツ(AIGC)分野において、月の暗面チームが開発したKimi Linearモデルは顕著な技術的進歩を遂げました。このイノベーティブなモデルは、長文の文脈処理における速度が2.9倍に向上し、デコード速度は6倍に改善され、従来のソフトマックスアテンションメカニズムの性能の限界を突破しました。Kimi Linearは、混合線形アテンションアーキテクチャを採用しており、特に文脈処理や強化学習などの複数のシナリオで、一般的に使用されているソフトマックスアテンションメカニズムを上回る性能を示しています。

image.png

従来のTransformerモデルはソフトマックスアテンションメカニズムを使用しており、計算複雑度はO(n²)に達しており、これにより長文の処理時に計算量とメモリ消費量が指数関数的に増加し、モデルの実際的な応用に大きな影響を与えています。一方で、線形アテンションの導入により、この複雑度はO(n)に低下し、処理効率が大幅に向上しました。しかし、初期の線形アテンションでは性能が不十分であり、特に長系列の記憶管理において制限がありました。

image.png

Kimi Linearモデルのコア革新は、Kimi Delta Attention(KDA)です。これは細粒度のゲートメカニズムを導入し、モデルの記憶管理能力を改善します。KDAは入力に応じて動的に記憶状態を調整でき、情報の忘れ方と保持を効果的に制御することができ、長期的なインタラクション中の情報をより良く処理できます。

また、Kimi LinearはMoonlightアーキテクチャを採用し、KDAと全アテンション層を混合し、3:1の比率で構成することで、計算効率とモデルの能力のバランスを取っています。この設計により、Kimi Linearは長文の処理において優れた性能を示し、計算コストも効果的に低減されています。

一連の実験によって確認された結果によると、Kimi Linearはさまざまなタスクにおいて優れたパフォーマンスを示しており、特に繰り返し文や複数クエリ関係記憶タスクなど、長文の記憶が必要なタスクでは、前世代モデルを大きく上回る正確性を示し、細粒度制御の利点を示しています。

ポイント:  

🌟 Kimi Linearモデルは長文処理の速度が2.9倍に向上し、デコード速度は6倍に改善されました。  

🔍 Kimi Delta Attention(KDA)という革新的なメカニズムを採用し、記憶管理と情報の忘れ方を最適化しています。  

📈 3:1の混合アーキテクチャによる設計により、計算効率とモデル性能のバランスを取っており、実験結果から卓越した能力を示しています。