MiniMax聯合華中科大開源VTP技術！僅優化視覺分詞器，DiT生成性能飆升65.8%

AI視覺生成領域迎來範式級突破。MiniMax與華中科技大學近日聯合開源其核心技術——VTP（Visual Tokenizer Pretraining，視覺分詞器預訓練），在不修改標準DiT(Diffusion Transformer)架構的前提下，僅通過優化視覺分詞器(Visual Tokenizer)，即實現65.8%的端到端圖像生成性能提升。這一成果顛覆了“唯有堆大模型才能提性能”的行業慣性，首次將視覺分詞器推向前所未有的技術高度。

不碰主模型，只改“翻譯官”——性能卻翻倍

傳統生成模型（如DALL·E3、Stable Diffusion3）依賴DiT等主幹網絡提升性能，而VTP另闢蹊徑:它將視覺分詞器——即負責將圖像壓縮爲離散token序列的“視覺翻譯官”——作爲核心優化對象。

關鍵在於，VTP無需改動DiT的任何訓練流程或結構，僅在預訓練階段對分詞器進行專門優化，使其輸出的latent表徵更易學習、更具通用性，從而讓下游DiT“事半功倍”。實驗顯示，在相同DiT配置下，採用VTP的系統生成質量（FID、CLIP Score等指標）顯著超越基線。

首次建立“分詞器可擴展性”理論框架

VTP的突破不僅是工程優化，更提出全新理論視角:

- 首次明確將latent表徵的易學性（learnability）與通用視覺表徵能力關聯;

- 首次證明分詞器本身具備可擴展性（tokenizer scaling）——隨着分詞器容量、訓練數據與預訓練策略的增強，生成性能呈現清晰的scaling曲線;

- 爲行業開闢“模型之外的性能增長路徑”:未來或無需一味擴大DiT參數，而可通過優化分詞器實現更高性價比的性能躍升。

開源即賦能，推動視覺生成民主化

目前，VTP代碼、預訓練分詞器及訓練配方已全面開源，兼容主流DiT實現。這意味着，任何使用DiT架構的研究者或企業，均可“即插即用”VTP，低成本獲得近70%的生成質量提升，尤其利好算力有限的中小團隊。

AIbase認爲，VTP的發佈標誌着AI生成技術進入“系統級優化”新階段。當行業從“唯大模型論”轉向“全鏈路協同提效”，MiniMax與華中科大此次合作，不僅是一次技術勝利，更是對“高效AI”發展理念的有力踐行——真正的創新，有時不在於造更大的引擎，而在於讓每個零件都更聰明地協同工作。

代碼:https://github.com/MiniMax-AI/VTP

論文:https://arxiv.org/abs/2512.13687v1

MiniMax聯合華中科大開源VTP技術！僅優化視覺分詞器，DiT生成性能飆升65.8%

相關推薦

MiniMax M2.5-HighSpeed:推理速度提升3倍，助力 AI 應用

多重福利 + 獨家玩法！海螺 AI 上線馬年新春內容矩陣

MiniMax M2.5 正式發佈：編程力對標 Claude Opus 4.6，市值狂飆突破 1800 億

突破技術瓶頸：MiniMax Music 2.5 音樂大模型正式發佈

MiniMax再落一子！全資設立廣州稀宇極智，加速AI硬件與機器人商業化佈局