現代の産業向け推薦システムにおいて、大規模言語モデル(LLM)を基盤とする「生成型検索(GR)」は伝統的な埋め込み検索に取って代わっています。しかし、この手法は実際の応用において困難な問題に直面しています。それは、モデルが「無意味なことを言う」ことで、存在しない商品IDを生成したり、在庫ロジックに反する出力を生じたりすることです。
この課題を解決するために、Google DeepMind と YouTube の研究チームは最近、STATIC(制約付きデコードを加速するためのスパース転送行列による Trie インデックス)という新しいフレームワークを発表しました。この技術は、革新的な数学的アプローチによって、LLM の制約付きデコード速度を驚くほど 948倍向上させました。

主要な技術的突破:
「木」から「行列」へ:従来の制約チェックは接頭辞木(Trie)に依存していましたが、GPU/TPUなどのハードウェア上で効率が極めて低かったものです。STATICは複雑な木構造を静的圧縮スパース行(CSR)行列に平坦化し、チェックプロセスをハードウェアが得意とするベクトル演算に変換します。
極めて高速なレスポンス:30億パラメータのモデルでテストしたところ、STATICの1ステップ遅延はわずか 0.033ミリ秒でした。従来のCPU検索方式と比較すると千倍以上速く、現在のハードウェア加速方式と比較しても40倍以上の優位性があります。
YouTubeでの実証成功:この技術はすでにYouTubeの動画推薦に導入されており、「過去7日間の新鮮さ」といったビジネス上の制約を確保するために使用されています。実験結果によると、新鮮な動画の視聴数は 5.1%上昇し、クリック率(CTR)も顕著に増加しました。
