在現代工業推薦系統中,基於大語言模型(LLM)的“生成式檢索(GR)”正逐漸取代傳統的嵌入式搜索。然而,這種模式在實際應用中面臨一個棘手問題:模型容易“胡言亂語”,生成不存在的商品 ID 或違反庫存邏輯。
爲了解決這一痛點,Google DeepMind 與 YouTube 的研究團隊近日聯合發佈了名爲 STATIC(用於約束解碼的稀疏轉移矩陣加速 Trie 索引)的全新框架。該技術通過創新的數學方法,將 LLM 的約束解碼速度提升了驚人的 948倍。

核心技術突破:
變“樹”爲“陣”:傳統的約束校驗依賴前綴樹(Trie),但在 GPU/TPU 等硬件上運行效率極低。STATIC 將複雜的樹狀結構扁平化爲靜態壓縮稀疏行(CSR)矩陣,使校驗過程轉化爲硬件極其擅長的向量化運算。
極致響應速度:在30億參數模型的測試中,STATIC 的單步延遲僅爲 0.033毫秒。相比傳統的 CPU 檢索方案,速度提升了近千倍;相比現有的硬件加速方案,也有超過40倍的領先。
YouTube 實測大捷:該技術已在 YouTube 視頻推薦中上線,用於確保推薦內容符合“近7天新鮮度”等業務約束。實測顯示,新鮮視頻的播放量提升了 5.1%,點擊率(CTR)也實現了顯著增長。
此外,STATIC 還解決了生成式檢索在“冷啓動”階段的短板。通過精準的解碼約束,模型在推薦從未見過的全新商品時,準確率實現了零的突破。
