最近、中国科学院自動化研究所の李国齊(リ・グオジー)と徐波(シュウ・ボ)のチームは、世界初の大規模な脳に似たスパイク大規模モデルである「SpikingBrain1.0」を発表しました。このモデルは長文処理において驚くべき速度を示し、400万トークンの超長文を現在主流のTransformerモデルよりも100倍以上の速度で処理でき、データ量はわずか2%にとどまります。

image.png

現在主流の大規模言語モデルであるGPTシリーズは、一般的にTransformerアーキテクチャに基づいています。Transformerは強力な自己注意機構で知られていますが、計算複雑度は致命的な欠点です。テキストの長さが増すにつれて、計算量が平方レベルで急激に増加し、長文の処理が非常に時間がかかり、エネルギーも多く消費されます。この現象により、AIは長編小説や法律文書の分析には苦労しています。

新しい解決策を求めて、研究チームは自然界で最も効率的な知能システムである人間の脳に注目しました。人間の脳は千億個の神経細胞から構成され、電力はわずか20ワットです。チームは「内生的複雑性に基づく」考え方を提案し、モデル内部のユニットの効率と知能を向上させることを目指しました。

SpikingBrainモデルは、人間の脳の神経細胞の働き方を模倣する新しいアーキテクチャを持ち、2つのバージョンがあります:SpikingBrain-7B(70億パラメータ)とSpikingBrain-76B(760億パラメータ)。まず、このモデルは従来のTransformerの二次関数複雑度の自己注意機構を放棄し、「ハイブリッド線形注意アーキテクチャ」を採用し、計算複雑度を線形(O(n))にまで下げ、長文の処理効率を著しく向上させました。

次に、SpikingBrainは「適応閾値スパイク神経細胞」を導入し、神経細胞の活性化は受信した信号の強さによって決まります。動的に閾値を調整することで、モデルは神経細胞が効率的な状態で動作することを保証します。このようなイベント駆動型のメカニズムにより、エネルギー消費を大幅に節約し、計算の疎らさは69.15%に達しました。

また、チームは既存のTransformerモデルを直接SpikingBrainアーキテクチャに変換できる効率的なモデル変換技術を開発しました。これにより、トレーニングコストが低下します。すべての技術的な詳細とコードはGitHubおよび魔搭プラットフォームでオープンソースとなり、世界中の研究者に利用可能です。

今回のSpikingBrainの登場は、計算効率において大きな突破を遂げただけでなく、将来の汎用人工知能に対する新たな道筋を示しました。

GitHub:

https://github.com/BICLab/SpikingBrain-7B

ポイント:

🌟 研究チームが発表したSpikingBrainモデルは、長文処理において主流モデルより100倍速く、訓練データはわずか2%です。

🧠 このモデルはハイブリッド線形注意アーキテクチャを採用しており、計算複雑度が二次関数から線形に低下し、処理効率が向上しています。

💡 SpikingBrainの適応閾値スパイク神経細胞メカニズムにより、エネルギー消費が顕著に減少し、計算の疎らさが高くなっています。