馬斯克點贊！Kimi 論文撼動大模型“祖傳地基”：同樣算力，效率提升 25%

同樣的算力與數據，憑什麼有的模型效果更好?月之暗面（Moonshot AI） 給出了一個直擊底層邏輯的答案。

3月16日，Kimi發佈重磅技術報告 《Attention Residuals》（注意力殘差）。該研究針對自2015年以來幾乎從未被變動的大模型“基石”——殘差連接（Residual Connections）進行了徹底重構。實驗證明，在相同算力下，新方法訓練出的模型效果等同於基線模型花費 1.25倍 算力達成的水平。

這一突破迅速引發硅谷 AI 圈震動，在社交媒體公開評價其爲“令人印象深刻的工作（Impressive work from Kimi）”。

Jerry Tworek（OpenAI o1主要發明者）: 稱其爲“深度學習2.0”的開端。

Andrej Karpathy（前 OpenAI 聯創）: 感慨行業對“Attention is All You Need”的理解仍有挖掘空間。

爲何要動“祖傳地基”?

傳統的殘差連接雖然解決了深層網絡難以訓練的問題，但其“等權相加”的方式過於粗暴。隨着網絡加深，每一層的新貢獻極易被龐大的累積信息淹沒，導致大量中間層淪爲“無效幹活”。

Kimi 的“優雅旋轉”:

團隊發現，深度方向上的信息丟失與 RNN 在時間維度上的遺忘在數學結構上高度一致。於是，他們將原本用於處理文字序列的“注意力機制”橫向轉動90度，應用到了縱向的深度維度上。

通過，每一層不再是被動接受疊加信息，而是通過一個微小的“查詢向量”，主動、有選擇性地決定從前面哪些層提取多少信息。爲了解決大規模訓練中的內存開銷，團隊還創新性地提出了 Block AttnRes 方案，將網絡劃分爲若干塊，在確保性能的同時，將推理延遲增量控制在 2% 以內。

在的實驗中，該架構展現了極強的泛化能力。在 GPQA-Diamond 科學推理任務上實現了 7.5% 的飛躍，數學與代碼生成任務也分別獲得了 3.6% 和 3.1% 的顯著增益。

正如創始人在 GTC2026演講中所言，行業正逐漸遭遇 Scaling 的瓶頸，必須對優化器、殘差連接等底層基石進行重構。當大多數人還在“高層精裝修”時，選擇下沉到最深處，用一記重錘撬動了深度學習的未來。

深度博弈數月！Anthropic向歐盟開放頂尖安全模型Mythos訪問權，美國政府曾極力反對

歐盟委員會證實，美國AI企業Anthropic將向歐盟開放其最先進的AI安全模型“Mythos”訪問權限，以協助評估下一代大模型的網絡安全風險。此舉是Anthropic“Project Glasswing”項目的核心部分，標誌着全球AI安全治理與地緣政治外交取得重要進展。

谷歌母公司 Alphabet 籌集 800 億美元資金以推動 AI 基礎設施建設

谷歌母公司Alphabet於6月1日宣佈一項總額800億美元（約541億元人民幣）的融資計劃，主要用於投資人工智能基礎設施和提升計算能力。該計劃包括：通過包銷公開發行股票籌集300億美元（一半存託憑證，一半A或C類股）；按市值發行400億美元A或C類股票；以及著名投資公司克希爾哈撒韋參與的私募融資。

馬斯克點贊！Kimi 論文撼動大模型“祖傳地基”：同樣算力，效率提升 25%

相關推薦

谷歌強推 AI 惹衆怒？隱私搜索巨頭出手，上線“純淨版”無 AI 搜索插件

OpenAI大幅調整ChatGPT，支持提前鎖死算力檔位

深度博弈數月！Anthropic向歐盟開放頂尖安全模型Mythos訪問權，美國政府曾極力反對

天下苦 AI 概覽久矣？DuckDuckGo 爲“傳統派”推出無 AI 搜索插件

谷歌母公司 Alphabet 籌集 800 億美元資金以推動 AI 基礎設施建設