隨着大型語言模型(LLM)在推理過程中對計算資源的需求不斷增加,傳統的服務架構面臨瓶頸。Moonshot AI 與清華大學的研究團隊最近推出了一種新架構 —— 預填充即服務(PrfaaS),旨在打破大型語言模型服務中對數據中心和計算機資源的限制。

目前,大型語言模型的推理過程通常分爲預填充和解碼兩個階段。預填充階段是模型處理輸入並生成鍵值緩存(KVCache)的高計算密集型過程,而解碼階段則是模型逐個生成輸出的內存帶寬密集型過程。傳統架構需要在同一數據中心中完成這兩個階段,這在計算和帶寬上造成了限制。
PrfaaS 通過將預填充任務卸載到專用的高計算集羣上,並利用通用以太網將生成的 KVCache 傳輸到本地解碼集羣,從而實現了跨數據中心的高效服務。研究表明,該架構在處理性能上顯著提升,相比於傳統模型,服務吞吐量提高了 54%。在實際案例研究中,該架構還表現出更低的延遲和更高的效率。
PrfaaS 架構的設計將計算、網絡和存儲三大子系統分開管理,通過精確的路由機制確保長請求能高效傳輸,避免了傳統方法中因資源分配不均而導致的擁堵問題。同時,該系統還引入了雙時間尺度調度機制,以應對不同流量模式的變化,進一步優化資源利用。
隨着對跨數據中心推理需求的增加和新型硬件的不斷涌現,PrfaaS 無疑爲未來的 AI 應用提供了新的解決方案。
