近日,中國科學院自動化研究所的李國齊與徐波團隊聯合發佈了全球首款大規模類腦脈衝大模型 ——SpikingBrain1.0。該模型在處理長文本時展現出驚人的速度,能夠以超過當前主流 Transformer 模型100多倍的速度處理400萬 token 的超長文本,且僅需2% 的數據量。

當前主流的大語言模型,如 GPT 系列,普遍基於 Transformer 架構。儘管 Transformer 以其強大的自注意力機制而聞名,但其計算複雜度卻是一個致命的短板。在文本長度增加時,計算量呈現出平方級別的暴漲,使得長文本的處理變得異常耗時和耗能。這一現象讓 AI 在分析長篇小說或法律文書時顯得力不從心。
爲了尋求新的解決方案,研究團隊將目光投向了自然界最爲高效的智能系統 —— 人腦。人腦由千億神經元構成,功耗卻僅爲20瓦。團隊提出了 “基於內生複雜性” 的理念,旨在提升模型內部單元的效率與智能。
SpikingBrain 模型通過全新的架構模擬了人腦神經元的工作方式,分爲兩個版本:SpikingBrain-7B(70億參數)和 SpikingBrain-76B(760億參數)。首先,該模型拋棄了傳統 Transformer 的二次方複雜度自注意力機制,採用了 “混合線性注意力架構”,將計算複雜度降至線性(O (n)),顯著提高了處理長文本的效率。
其次,SpikingBrain 引入了 “自適應閾值脈衝神經元”,使神經元的激活與否取決於接收到的信號強度。通過動態調整閾值,模型確保神經元在高效能狀態下工作,這種事件驅動的機制顯著節省了能耗,計算稀疏度高達69.15%。
此外,團隊還開發了一套高效的模型轉換技術,能夠將現有的 Transformer 模型直接轉化爲 SpikingBrain 架構,降低了訓練成本。所有技術細節和代碼已在 GitHub 及魔搭平臺上開源,供全球研究人員使用。
此次 SpikingBrain 的問世,不僅在計算效率上取得了重大突破,也爲未來的通用人工智能提供了一條新思路。
GitHub:
https://github.com/BICLab/SpikingBrain-7B
劃重點:
🌟 研究團隊推出的 SpikingBrain 模型在處理長文本時速度比主流模型快100倍,僅需2% 訓練數據。
🧠 該模型採用混合線性注意力架構,計算複雜度從二次方降至線性,提升了處理效率。
💡 SpikingBrain 的自適應閾值脈衝神經元機制顯著降低能耗,實現高計算稀疏度。
