AI視覺生成領域迎來範式級突破。MiniMax與華中科技大學近日聯合開源其核心技術——VTP(Visual Tokenizer Pretraining,視覺分詞器預訓練),在不修改標準DiT(Diffusion Transformer)架構的前提下,僅通過優化視覺分詞器(Visual Tokenizer),即實現65.8%的端到端圖像生成性能提升。這一成果顛覆了“唯有堆大模型才能提性能”的行業慣性,首次將視覺分詞器推向前所未有的技術高度。

不碰主模型,只改“翻譯官”——性能卻翻倍

傳統生成模型(如DALL·E3、Stable Diffusion3)依賴DiT等主幹網絡提升性能,而VTP另闢蹊徑:它將視覺分詞器——即負責將圖像壓縮爲離散token序列的“視覺翻譯官”——作爲核心優化對象。  

關鍵在於,VTP無需改動DiT的任何訓練流程或結構,僅在預訓練階段對分詞器進行專門優化,使其輸出的latent表徵更易學習、更具通用性,從而讓下游DiT“事半功倍”。實驗顯示,在相同DiT配置下,採用VTP的系統生成質量(FID、CLIP Score等指標)顯著超越基線。

image.png

首次建立“分詞器可擴展性”理論框架

VTP的突破不僅是工程優化,更提出全新理論視角:  

- 首次明確將latent表徵的易學性(learnability)與通用視覺表徵能力關聯;  

- 首次證明分詞器本身具備可擴展性(tokenizer scaling)——隨着分詞器容量、訓練數據與預訓練策略的增強,生成性能呈現清晰的scaling曲線;  

- 爲行業開闢“模型之外的性能增長路徑”:未來或無需一味擴大DiT參數,而可通過優化分詞器實現更高性價比的性能躍升。

image.png

開源即賦能,推動視覺生成民主化

目前,VTP代碼、預訓練分詞器及訓練配方已全面開源,兼容主流DiT實現。這意味着,任何使用DiT架構的研究者或企業,均可“即插即用”VTP,低成本獲得近70%的生成質量提升,尤其利好算力有限的中小團隊。

AIbase認爲,VTP的發佈標誌着AI生成技術進入“系統級優化”新階段。當行業從“唯大模型論”轉向“全鏈路協同提效”,MiniMax與華中科大此次合作,不僅是一次技術勝利,更是對“高效AI”發展理念的有力踐行——真正的創新,有時不在於造更大的引擎,而在於讓每個零件都更聰明地協同工作。

代碼:https://github.com/MiniMax-AI/VTP

論文:https://arxiv.org/abs/2512.13687v1