記事本文

中国科学院が脳に似た大規模モデル「SpikingBrain」を発表:2％のデータで100倍の速度向上を実現

公開AI二ュ-ス

時間 :Sep 22, 2025

読む :1分

最近、中国科学院自動化研究所の李国齊（リ・グオジー）と徐波（シュウ・ボ）のチームは、世界初の大規模な脳に似たスパイク大規模モデルである「SpikingBrain1.0」を発表しました。このモデルは長文処理において驚くべき速度を示し、400万トークンの超長文を現在主流のTransformerモデルよりも100倍以上の速度で処理でき、データ量はわずか2%にとどまります。

現在主流の大規模言語モデルであるGPTシリーズは、一般的にTransformerアーキテクチャに基づいています。Transformerは強力な自己注意機構で知られていますが、計算複雑度は致命的な欠点です。テキストの長さが増すにつれて、計算量が平方レベルで急激に増加し、長文の処理が非常に時間がかかり、エネルギーも多く消費されます。この現象により、AIは長編小説や法律文書の分析には苦労しています。

新しい解決策を求めて、研究チームは自然界で最も効率的な知能システムである人間の脳に注目しました。人間の脳は千億個の神経細胞から構成され、電力はわずか20ワットです。チームは「内生的複雑性に基づく」考え方を提案し、モデル内部のユニットの効率と知能を向上させることを目指しました。

SpikingBrainモデルは、人間の脳の神経細胞の働き方を模倣する新しいアーキテクチャを持ち、2つのバージョンがあります：SpikingBrain-7B（70億パラメータ）とSpikingBrain-76B（760億パラメータ）。まず、このモデルは従来のTransformerの二次関数複雑度の自己注意機構を放棄し、「ハイブリッド線形注意アーキテクチャ」を採用し、計算複雑度を線形（O(n)）にまで下げ、長文の処理効率を著しく向上させました。

次に、SpikingBrainは「適応閾値スパイク神経細胞」を導入し、神経細胞の活性化は受信した信号の強さによって決まります。動的に閾値を調整することで、モデルは神経細胞が効率的な状態で動作することを保証します。このようなイベント駆動型のメカニズムにより、エネルギー消費を大幅に節約し、計算の疎らさは69.15%に達しました。

また、チームは既存のTransformerモデルを直接SpikingBrainアーキテクチャに変換できる効率的なモデル変換技術を開発しました。これにより、トレーニングコストが低下します。すべての技術的な詳細とコードはGitHubおよび魔搭プラットフォームでオープンソースとなり、世界中の研究者に利用可能です。

今回のSpikingBrainの登場は、計算効率において大きな突破を遂げただけでなく、将来の汎用人工知能に対する新たな道筋を示しました。

GitHub:

https://github.com/BICLab/SpikingBrain-7B

ポイント：
🌟 研究チームが発表したSpikingBrainモデルは、長文処理において主流モデルより100倍速く、訓練データはわずか2%です。
🧠 このモデルはハイブリッド線形注意アーキテクチャを採用しており、計算複雑度が二次関数から線形に低下し、処理効率が向上しています。
💡 SpikingBrainの適応閾値スパイク神経細胞メカニズムにより、エネルギー消費が顕著に減少し、計算の疎らさが高くなっています。

伝統に挑戦：正規化層なしTransformerアーキテクチャの新たなブレークスルー

深層学習の分野において、正規化層は現代的なニューラルネットワークにおいて不可欠な構成要素の一つとみなされています。最近、Meta FAIRの研究科学者である劉壮氏が主導した研究成果「正規化層のないTransformer」が大きな注目を集めています。この研究は、動的tanh（Dynamic Tanh、DyT）と呼ばれる新技術を提案しただけでなく、従来の正規化層を使用せずにTransformerアーキテクチャが依然として効率的に動作することを示しました。

Mar 14, 2025

111.5k

Sesame、CSMモデルを発表：リアルタイム感情カスタマイズAI音声合成が新たな高みに

3月13日、Sesame社は最新のテキスト音声変換モデルCSMを発表し、業界の注目を集めています。公式発表によると、CSMはエンドツーエンドのTransformerベースのマルチモーダル学習アーキテクチャを採用し、コンテキスト情報を理解して、自然で感情豊かな音声、まるで人間の声のような驚くほどリアルな音声を生成します。このモデルはリアルタイム音声生成に対応し、テキストと音声の両方の入力を処理できます。ユーザーはパラメーターを調整することで、トーン、イントネーション、リズム、感情などの特性を制御でき、高い柔軟性を発揮します。CSMはAI音声技術の...

Mar 14, 2025

123.6k

Colorfulが「虹光AI」アシスタントをDeepSeek R1フルバージョンに統合

Colorful Technologyは、最新の「虹光AI」インテリジェントモデルアシスタントが、フルバージョンのDeepSeek R1モデルに完全に統合されたことを正式に発表しました。このアップグレードにより、Colorfulのノートブック製品のパフォーマンスと推論効率が大幅に向上しました。今回の更新された「虹光AI」アシスタントは、現在人気のTransformerアーキテクチャに基づいており、MLAとDeepSeek MoE技術を採用することで、メモリ使用量とキャッシュのニーズを大幅に削減し、全体的な推論性能を向上させています。

Feb 8, 2025

87.1k

Liquid AI、Transformerを凌駕する効率性を誇るSTARモデルアーキテクチャを発表

現在の大規模言語モデル（LLM）開発競争において、主要なAI企業はますます多くの課題に直面しており、そのため「Transformer」以外の代替アーキテクチャに注目が集まっています。2017年にGoogleの研究者によって提案されて以来、Transformerアーキテクチャは今日の生成AIの基盤となっています。この課題に対処するため、MIT発のスタートアップであるLiquid AIは、STAR（Synthesi…

Dec 3, 2024

75.8k

DeepMindの超大規模Transformer、その驚異的なチェス能力がAIプランニングの限界に挑戦！

DeepMindが最近発表した、超大規模Transformerをチェスに応用した論文が、AIコミュニティで大きな議論を呼んでいます。研究者らは、ChessBenchと呼ばれる新しいデータセットを用いて、最大2億7000万パラメータのTransformerモデルを訓練し、チェスのような複雑な計画問題における能力を探りました。ChessBenchデータセットは、Lichessプラットフォームから収集された1000万局の人間同士のチェス対局の棋譜を含んでおり、

Oct 22, 2024

66.5k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク