谷歌於2026年6月10日正式發佈了實驗性開源語言模型DiffusionGemma,打破了傳統大模型逐字生成的自迴歸範式,首次將圖像AI中的擴散機制引入文本生成領域。該模型通過從隨機噪聲中進行多次迭代優化,可實現一次性並行輸出256個標記的詞塊。

在硬件效能上,通過英偉達的深度優化,模型在單GPU單用戶模式下的運行速度比同類傳統模型提升了近四倍。在H100顯卡上處理單條請求時,其輸出速度可達每秒1000個標記,即使在RTX5090等高端消費級顯卡上也能突破每秒700個標記。
DiffusionGemma擁有260億參數,依託混合專家(MoE)架構,單步激活參數僅爲38億。儘管在標準基準測試中,其文本生成質量與準確率略遜於傳統的Gemma4系列模型,但其獨特的“全塊感知”能力打破了自迴歸模型只能向後推演的侷限。由於所有標記在生成過程中可以相互引用,該模型在文本後補、代碼填空、數獨求解以及氨基酸序列等非線性、結構化數據處理任務中展現出顯著優勢。

目前,該模型權重已基於Apache2.0協議在Hugging Face開源,並全面兼容vLLM、MLX等主流推理框架。這一探索不僅打破了內存帶寬對GPU算力的制約,也爲未來AI在複雜邏輯及非線性文本生成任務上的應用開闢了全新的技術路徑。
