近年來人工智能領域發生了翻天覆地的變化,尤其是大型語言模型(LLMs)在多模態任務上取得了顯著進展。這些模型在理解和生成語言的能力上展現出了強大的潛力,但目前大多數多模態模型依然採用自迴歸(AR)架構,推理過程較爲單一、缺乏靈活性。爲此,香港大學和華爲諾亞方舟實驗室的研究團隊提出了一種全新的模型 ——FUDOKI,旨在打破這一侷限。

FUDOKI 的核心創新在於其全新的非掩碼離散流匹配(Discrete Flow Matching)架構。與傳統的自迴歸模型不同,FUDOKI 通過並行去噪機制,能夠實現雙向信息整合,從而顯著提升模型在複雜推理和生成任務中的表現。該模型不僅在圖像生成與文本理解之間架起了橋樑,還實現了兩者的統一建模。

大腦 大模型  AI

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

這一模型的優勢在於其去掩碼的設計,使得生成過程更加靈活。FUDOKI 在推理過程中允許動態調整生成結果,彷彿讓機器學習到了人類的思維方式。此外,FUDOKI 在生成圖像方面的表現尤爲出色,在 GenEval 基準上取得了0.76的成績,超越了同尺寸的自迴歸模型,展現出高質量的生成效果和語義準確性。

FUDOKI 的構建依賴於度量誘導的概率路徑和動力學最優速度。這些技術使得模型能夠在生成過程中綜合考慮每個 token 的語義相似性,從而實現更加自然的文本和圖像生成。同時,在模型訓練上,FUDOKI 利用預訓練的自迴歸模型進行初始化,降低了訓練成本,提升了效率。

FUDOKI 的推出不僅爲多模態生成和理解提供了新的視角,還爲通用人工智能的發展奠定了更爲堅實的基礎。未來,我們期待 FUDOKI 能夠帶來更多的探索與突破,推動人工智能技術的進一步發展。