螞蟻集團重磅推出 dInfer：讓擴散語言模型的推理速度飆升 10 倍！

近日，螞蟻集團正式開源了業內首個高性能擴散語言模型推理框架 ——dInfer。這一框架的推出，不僅意味着擴散語言模型在推理速度上取得了重大突破，也標誌着這一新興技術向實際應用邁出了重要一步。

在最新的基準測試中，dInfer 的推理速度比英偉達的 Fast-dLLM 框架提升了驚人的10.7倍。在代碼生成任務 HumanEval 中，dInfer 在單次推理中達到了每秒1011個 Tokens 的速度，這一成績在開源社區中首次實現了擴散語言模型的推理速度顯著超越傳統自迴歸模型。這樣的進展讓人們對擴散語言模型的未來充滿期待，認爲它將成爲通往通用人工智能（AGI）的重要技術路徑。

擴散語言模型的獨特之處在於其將文本生成視作一個 “從隨機噪聲中逐步恢復完整序列” 的去噪過程，具備高度並行、全局視野以及結構靈活的特點。儘管理論上擁有強大的潛力，dLLM 在實際推理中卻受限於高計算成本、KV 緩存失效和並行解碼等挑戰。這些難題使得擴散語言模型的推理速度一直未能得到充分發揮，亟待突破。

針對這些挑戰，dInfer 專爲擴散語言模型設計，包含了四大核心模塊:模型接入、KV 緩存管理器、擴散迭代管理器和解碼策略。這樣的模塊化設計，像樂高玩具一樣，讓開發者可以靈活組合和優化各個模塊，同時在統一的平臺上進行標準化評測。

在配備8塊 NVIDIA H800GPU 的節點上，dInfer 的表現極爲出色。在與 Fast-dLLM 的對比中，dInfer 在效果相當的情況下，平均推理速度達到了681個 Tokens / 秒，相比之下，Fast-dLLM 的速度僅爲63.6個 Tokens / 秒。此外，與業界頂尖的推理服務框架 vLLM 上運行的自迴歸模型 Qwen2.5-3B 相比，dInfer 的速度更是達到了其2.5倍。

螞蟻集團表示，dInfer 的推出是連接前沿研究與產業應用的重要一步，期待全球的開發者與研究者共同探索擴散語言模型的巨大潛能，構建更加高效與開放的 AI 生態。

Hume AI語音轉換功能上線，單次捕捉完美復刻你的“聲音靈魂”

Hume AI推出全新“語音轉換”功能，用戶僅需一次錄音即可將原聲的節奏、發音和語調精準移植到任意目標聲音，實現無縫融合與個性化表達。該功能已在創作工作室和API平臺上線，標誌着語音AI從機械朗讀向情感共鳴的轉變，開啓無限創意可能。

OpenAI 發佈青少年人工智能安全標準藍圖，引發廣泛關注

OpenAI週四發佈青少年AI安全標準藍圖，呼籲關注未成年人使用AI的風險。文件發佈之際，美國多州正醞釀AI安全立法，參議院擬禁止未成年人使用聊天機器人。同時，OpenAI因一起青少年自殺訴訟陷入輿論漩渦，凸顯其平臺在保護未成年用戶方面的不足。

螞蟻集團重磅推出 dInfer：讓擴散語言模型的推理速度飆升 10 倍！

相關推薦

Hume AI語音轉換功能上線，單次捕捉完美復刻你的“聲音靈魂”

谷歌發佈 AI 文件檢測工具 Magika 1.0，重磅升級全面採用 Rust 語言

準確率高達 95%：谷歌發佈 Magika 1.0，強化 AI 驅動的文件安全檢測能力

AMD CEO 透露：多家OpenAI 級別客戶爭相採購AI芯片

OpenAI 發佈青少年人工智能安全標準藍圖，引發廣泛關注