在圖像生成領域,高分辨率和逼真圖像的任務一直面臨多重挑戰,特別是在文本到圖像的合成過程中。傳統的生成方法大多依賴於擴散模型和變換自迴歸(VAR)框架。
這些模型雖然能夠產生高質量的圖像,但需要消耗大量計算資源,這使得它們在實時應用中顯得不夠靈活。與此同時,VAR 模型在處理離散標記時容易產生累積誤差,導致生成的圖像細節丟,從而影響圖像的真實感。

爲了克服這些不足,字節跳動的研究團隊推出了名爲 “Infinity” 的全新框架,該框架旨在提升文本到圖像合成的效率和質量。
Infinity 通過引入比特級標記替代傳統的索引級標記,實現了更細粒度的表示方式,從而顯著減少了量化誤差並提高了生成圖像的真實度。此外,該框架還使用了一個無限詞彙分類器(IVC),將標記詞彙擴展到2^64,大幅降低了內存和計算需求。

Infinity 架構主要由三部分組成:一種比特級多尺度量化標記器,將圖像特徵轉化爲二進制標記,以計算開銷;一種基於變換器的自迴歸模型,該模型根據文本提示和先前輸出預測殘差;以及一種自我修正機制,在訓練過程中引入隨機比特翻轉,提高模型對誤差的魯棒性。研究團隊利用 LAION 和 OpenImages 等大型數據集進行訓練,通過逐步提升圖像分辨率,從256×256到1024×102的過程,取得了顯著的進展。
經過評估,Infinity 在關鍵指標上顯示出了優秀的性能,其 GenEval 得分爲0.,Fréchet Inception Distance(FID)降低至3.48,證明了其在生成速度和質量方面的提升。Infinity 能在0.8秒內生成1024×1024的高分辨率圖像,表現出其高效性和可靠性。該系統生成的圖像不僅在視覺上真實且細節豐富,還能夠準確響應複雜的文本指令,得到了較高的人類偏好評分。
Infinity 的推出標誌着高分辨率文本到圖像合成領域的新標杆,它通過創新的設計解決了長期存在的可擴展性和細節質量問題,推動了生成 AI 的進一步發展。
論文:https://arxiv.org/abs/2412.04431
劃重點:
🌟 ** 創新框架 Infinity:** 字節跳動推出的 Infinity 框架,通過比特級標記化和無限詞彙分類器,大幅提升高分辨率圖像生成效率。
⚡ ** 卓越性能:** Infinity 在關鍵評估指標上超越了現有模型,能在0.8秒內生成1024×1024的高質量圖像。
🖼️ ** 真實細節與響應能力:** 生成的圖像不僅視覺真實,還能精準響應複雜文本提示,表現出高人類偏好評分。
