國產大模型團隊 Moonshot AI 今日在 Hugging Face 正式發佈技術報告 《Kimi Linear Tech Report》(報告鏈接),宣佈推出全新架構 Kimi Linear —— 一種可直接替代完全注意力機制(Full Attention)的混合線性架構,兼具高效性與卓越性能,被視爲“智能體時代注意力機制的新起點”。

報告顯示,Kimi Linear 在 速度、內存效率和長上下文處理能力 三方面均實現了重大突破。該模型可將 KV 緩存使用量減少高達75%,並在 100萬(1M)上下文長度下實現 高達6倍的解碼吞吐量提升,極大地優化了長文本推理和多輪對話性能。
Kimi Linear 的核心創新在於三項關鍵技術:
Delta Attention:一種硬件高效的線性注意力機制,採用門控 Delta 規則優化結構,實現性能與能耗的平衡;
Linear Architecture:首個在多項指標上全面超越傳統完全注意力機制的混合線性架構,兼顧速度與模型表達能力;
開放生態與實證驗證:Moonshot 提供了 開源 KDA 內核、vLLM 集成支持 和 模型檢查點,並進行了大規模、公平的對比實驗,驗證了 Kimi Linear 的穩定性與可擴展性。
Moonshot AI 表示,Kimi Linear 不僅是一項架構創新,更是爲智能體(AI Agent)時代設計的基礎機制。隨着線性注意力技術的成熟,其有望在長上下文推理、智能助手、多模態生成等應用場景中成爲下一代標準。
地址:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
