3月26日消息,谷歌研究團隊(Google Research)近日正式推出全新向量量化壓縮算法TurboQuant,通過創新的 PolarQuant 與 QJL 技術,將大語言模型(LLM)推理過程中的 ** 鍵值緩存(KV Cache)** 內存需求減少至少6倍,在 Nvidia H100GPU 上注意力計算速度提升最高8倍,且在多項長上下文基準測試中實現零精度損失。這一突破性進展有望大幅降低 AI 部署成本,加速長上下文應用落地。

KV Cache 痛點:高維向量內存開銷巨大

LLM 在處理長序列時,需要維護鍵(Key)和值(Value)向量組成的緩存,這些高維向量用於快速計算注意力機制,避免重複計算。但隨着上下文長度增加,KV Cache 內存消耗呈爆炸式增長,成爲制約模型推理效率和部署規模的主要瓶頸。

image.png

傳統向量量化方法雖能壓縮數據,卻需額外存儲量化常數(如縮放因子、零點等),這些常數通常以全精度保存,每個數值額外引入1-2bit 開銷,部分抵消了壓縮收益。

TurboQuant 核心創新:PolarQuant + QJL 雙階段壓縮

TurboQuant 採用兩階段無訓練壓縮框架,巧妙解決了傳統量化的開銷問題:

PolarQuant(極座標角度壓縮):

先對向量進行隨機旋轉,然後將笛卡爾座標(X/Y/Z 等)轉換爲極座標形式(角度 + 半徑)。由於角度分佈在固定可預測範圍內,該方法省去了傳統量化中所需的邊界歸一化存儲開銷,實現更高效的壓縮。

QJL(1-bit 糾錯,Quantized Johnson-Lindenstrauss):

PolarQuant 壓縮後仍存在殘餘誤差。QJL 利用 Johnson-Lindenstrauss 變換進行降維,再以極簡的1bit(+1/-1符號)進行量化。通過特殊的無偏估計器,在計算注意力分數時實現零額外內存開銷的誤差修正,確保整體過程無系統偏差。

兩者結合後,TurboQuant 可將 KV Cache 壓縮至約3-bit 級別,同時保持內積估計的無偏性和高精度。

基準測試表現:全面領先,完美適配長上下文

谷歌團隊在 Gemma、Mistral 等開源模型上進行了廣泛驗證:

  • LongBench(涵蓋長文本問答、代碼生成、摘要等任務):TurboQuant 匹配或超越現有 KIVI 等基線,全面領先。
  • Needle In A Haystack等檢索任務:實現完美下游得分,同時 KV 內存壓縮至少6倍。
  • Nvidia H100實測:4-bit 配置下,注意力 logits 計算速度最高提升8倍。

此外,在 GloVe 等向量數據集上,TurboQuant 的召回率也優於 PQ、RabbiQ 等傳統方法。

AIbase 點評:TurboQuant 無需模型重訓或微調,可直接應用於現有 LLM,適用於任何依賴向量量化的場景,包括數據庫檢索、推薦系統和向量搜索引擎。這不僅能讓單張消費級 GPU 支持更長的上下文(如數十萬 token),還顯著降低企業級 AI 服務的硬件門檻。

行業意義:AI 推理效率新標杆

隨着長上下文、多模態應用爆發,KV Cache 內存已成爲 AI 基礎設施的核心制約。TurboQuant 的“近最優、數據無關”量化框架,爲高效推理開闢新路徑。谷歌研究表示,該技術已在 ICLR2026等會議相關論文中詳細闡述,相關代碼和實現細節有望逐步開源。

未來,TurboQuant 有望被集成到 vLLM、TensorRT 等主流推理框架中,進一步推動 AI 部署的民主化與規模化。