近日,螞蟻集團正式開源了業內首個高性能擴散語言模型推理框架 ——dInfer。這一框架的推出,不僅意味着擴散語言模型在推理速度上取得了重大突破,也標誌着這一新興技術向實際應用邁出了重要一步。

最新的基準測試中,dInfer 的推理速度比英偉達的 Fast-dLLM 框架提升了驚人的10.7倍。在代碼生成任務 HumanEval 中,dInfer 在單次推理中達到了每秒1011個 Tokens 的速度,這一成績在開源社區中首次實現了擴散語言模型的推理速度顯著超越傳統自迴歸模型。這樣的進展讓人們對擴散語言模型的未來充滿期待,認爲它將成爲通往通用人工智能(AGI)的重要技術路徑。

image.png

擴散語言模型的獨特之處在於其將文本生成視作一個 “從隨機噪聲中逐步恢復完整序列” 的去噪過程,具備高度並行、全局視野以及結構靈活的特點。儘管理論上擁有強大的潛力,dLLM 在實際推理中卻受限於高計算成本、KV 緩存失效和並行解碼等挑戰。這些難題使得擴散語言模型的推理速度一直未能得到充分發揮,亟待突破。

針對這些挑戰,dInfer 專爲擴散語言模型設計,包含了四大核心模塊:模型接入、KV 緩存管理器、擴散迭代管理器和解碼策略。這樣的模塊化設計,像樂高玩具一樣,讓開發者可以靈活組合和優化各個模塊,同時在統一的平臺上進行標準化評測。

在配備8塊 NVIDIA H800GPU 的節點上,dInfer 的表現極爲出色。在與 Fast-dLLM 的對比中,dInfer 在效果相當的情況下,平均推理速度達到了681個 Tokens / 秒,相比之下,Fast-dLLM 的速度僅爲63.6個 Tokens / 秒。此外,與業界頂尖的推理服務框架 vLLM 上運行的自迴歸模型 Qwen2.5-3B 相比,dInfer 的速度更是達到了其2.5倍。

螞蟻集團表示,dInfer 的推出是連接前沿研究與產業應用的重要一步,期待全球的開發者與研究者共同探索擴散語言模型的巨大潛能,構建更加高效與開放的 AI 生態。