突破傳統！FUDOKI 模型讓多模態生成與理解更靈活、更高效

近年來人工智能領域發生了翻天覆地的變化，尤其是大型語言模型（LLMs）在多模態任務上取得了顯著進展。這些模型在理解和生成語言的能力上展現出了強大的潛力，但目前大多數多模態模型依然採用自迴歸(AR)架構，推理過程較爲單一、缺乏靈活性。爲此，香港大學和華爲諾亞方舟實驗室的研究團隊提出了一種全新的模型 ——FUDOKI，旨在打破這一侷限。

FUDOKI 的核心創新在於其全新的非掩碼離散流匹配（Discrete Flow Matching）架構。與傳統的自迴歸模型不同，FUDOKI 通過並行去噪機制，能夠實現雙向信息整合，從而顯著提升模型在複雜推理和生成任務中的表現。該模型不僅在圖像生成與文本理解之間架起了橋樑，還實現了兩者的統一建模。

大腦大模型 AI

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

這一模型的優勢在於其去掩碼的設計，使得生成過程更加靈活。FUDOKI 在推理過程中允許動態調整生成結果，彷彿讓機器學習到了人類的思維方式。此外，FUDOKI 在生成圖像方面的表現尤爲出色，在 GenEval 基準上取得了0.76的成績，超越了同尺寸的自迴歸模型，展現出高質量的生成效果和語義準確性。

FUDOKI 的構建依賴於度量誘導的概率路徑和動力學最優速度。這些技術使得模型能夠在生成過程中綜合考慮每個 token 的語義相似性，從而實現更加自然的文本和圖像生成。同時，在模型訓練上，FUDOKI 利用預訓練的自迴歸模型進行初始化，降低了訓練成本，提升了效率。

FUDOKI 的推出不僅爲多模態生成和理解提供了新的視角，還爲通用人工智能的發展奠定了更爲堅實的基礎。未來，我們期待 FUDOKI 能夠帶來更多的探索與突破，推動人工智能技術的進一步發展。

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

日本數據科學家本田崇人推出開源編程語言“Sui”，旨在解決大語言模型生成代碼的準確性問題，宣稱可實現100%準確率。其設計理念源於日本美學“粋”，強調精煉與去除冗餘，核心原則包括保證零語法錯誤率，並使用數字作爲變量。

突破傳統！FUDOKI 模型讓多模態生成與理解更靈活、更高效

相關推薦

OpenAI聯合創始人Andrej Karpathy宣佈加盟Anthropic，發力下一代LLM研發

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度