字節跳動新突破：Infinity 框架重塑高分辨率圖像生成！

在圖像生成領域，高分辨率和逼真圖像的任務一直面臨多重挑戰，特別是在文本到圖像的合成過程中。傳統的生成方法大多依賴於擴散模型和變換自迴歸（VAR）框架。

這些模型雖然能夠產生高質量的圖像，但需要消耗大量計算資源，這使得它們在實時應用中顯得不夠靈活。與此同時，VAR 模型在處理離散標記時容易產生累積誤差，導致生成的圖像細節丟，從而影響圖像的真實感。

爲了克服這些不足，字節跳動的研究團隊推出了名爲 “Infinity” 的全新框架，該框架旨在提升文本到圖像合成的效率和質量。

Infinity 通過引入比特級標記替代傳統的索引級標記，實現了更細粒度的表示方式，從而顯著減少了量化誤差並提高了生成圖像的真實度。此外，該框架還使用了一個無限詞彙分類器（IVC），將標記詞彙擴展到2^64，大幅降低了內存和計算需求。

Infinity 架構主要由三部分組成:一種比特級多尺度量化標記器，將圖像特徵轉化爲二進制標記，以計算開銷;一種基於變換器的自迴歸模型，該模型根據文本提示和先前輸出預測殘差;以及一種自我修正機制，在訓練過程中引入隨機比特翻轉，提高模型對誤差的魯棒性。研究團隊利用 LAION 和 OpenImages 等大型數據集進行訓練，通過逐步提升圖像分辨率，從256×256到1024×102的過程，取得了顯著的進展。

經過評估，Infinity 在關鍵指標上顯示出了優秀的性能，其 GenEval 得分爲0.，Fréchet Inception Distance（FID）降低至3.48，證明了其在生成速度和質量方面的提升。Infinity 能在0.8秒內生成1024×1024的高分辨率圖像，表現出其高效性和可靠性。該系統生成的圖像不僅在視覺上真實且細節豐富，還能夠準確響應複雜的文本指令，得到了較高的人類偏好評分。

Infinity 的推出標誌着高分辨率文本到圖像合成領域的新標杆，它通過創新的設計解決了長期存在的可擴展性和細節質量問題，推動了生成 AI 的進一步發展。

論文:https://arxiv.org/abs/2412.04431

劃重點:
🌟 ** 創新框架 Infinity:** 字節跳動推出的 Infinity 框架，通過比特級標記化和無限詞彙分類器，大幅提升高分辨率圖像生成效率。
⚡ ** 卓越性能:** Infinity 在關鍵評估指標上超越了現有模型，能在0.8秒內生成1024×1024的高質量圖像。
🖼️ ** 真實細節與響應能力:** 生成的圖像不僅視覺真實，還能精準響應複雜文本提示，表現出高人類偏好評分。

字節跳動新突破：Infinity 框架重塑高分辨率圖像生成！

相關推薦

通義千問核心骨幹“跳槽”字節：大模型人才爭奪戰再次升級

消息稱原通義千問核心骨幹鬱博文加盟字節跳動Seed團隊

豆包手機MWC海外首秀：系統級權限成雙刃劍，AI手機生態邊界在哪？

字節調整 Seedance2.0視頻生成服務，應對迪士尼等版權侵權指控

谷歌發佈新Flow:集成 Nano Banana 模型並打通 Veo 視頻工作流