騰訊微信 AI 團隊發佈了一種新型擴散語言模型框架 ——WeDLM(WeChat Diffusion Language Model)。該模型的設計旨在突破傳統大型語言模型(如 GPT 系列)在並行推理效率方面的限制,提供更高效的文本生成能力。

image.png

WeDLM 通過創新性的拓撲重排技術,將擴散模型與標準因果注意力機制相結合。這種融合使得 WeDLM 能夠兼容 KV 緩存技術,從而有效解決了傳統擴散模型由於雙向注意力而導致的推理速度限制。這一改進不僅提升了推理速度,還在生成質量方面也得到了有效保證,特別是在處理複雜推理任務時,表現得尤爲突出。

在實際性能測試中,WeDLM 展現出顯著的速度優勢。例如,在數學推理任務 GSM8K 中,WeDLM-8B 模型的推理速度比經過優化的自迴歸模型(如 Qwen3-8B)快了約3倍,而在低熵場景的計數任務中,速度提升甚至可達到10倍以上。同時,在多個基準測試(如 ARC、MMLU、Hellaswag)中,WeDLM 的生成質量與傳統自迴歸基線模型相比,表現相當或更爲優異,表明其不僅在效率上有突破,同時也保持了較高的準確性。

WeDLM 的高效推理能力使其適用於多種場景,包括智能客服、代碼輔助生成和實時問答等。隨着其在實際應用中的推廣,WeDLM 有望降低計算成本,提高用戶體驗,推動 AI 技術的更廣泛應用。

github:https://github.com/tencent/WeDLM

劃重點:

- 🚀 WeDLM 通過拓撲重排技術提升推理速度,解決傳統模型的瓶頸。

- 📊 在 GSM8K 等任務中,WeDLM-8B 的速度比優化自迴歸模型快約3倍。

- 💡 適用於智能客服和實時問答等多場景,降低計算成本並提升用戶體驗。