蘋果公司最近在其研究中介紹了一種名爲 Manzano 的新型圖像模型,該模型旨在同時處理圖像理解和生成。這一雙重能力的實現是當前許多開源模型面臨的技術難題,而蘋果表示,這使其在圖像處理的效率和效果上更接近商業系統,如 OpenAI 和谷歌所提供的技術。

目前,Manzano 尚未對外發布,也沒有進行公開演示。但蘋果的研究團隊分享了一篇研究論文,附帶了一些低分辨率的圖像樣本,展示了模型在處理複雜提示時的能力。這些樣本與開源模型 Deepseek Janus Pro 和商業系統 GPT-4o、Gemini2.5Flash Image Generation(又名 “Nano Banana”)的輸出進行了對比。在三組挑戰性提示的測試中,Manzano 的表現與 OpenAI 的 GPT-4o 和谷歌的 Nano Banana 相當。
蘋果指出,目前大多數開源模型的核心限制在於,它們往往需要在強大的圖像分析和生成能力之間進行選擇,而商業系統則能夠兩者兼顧。尤其是在處理包含大量文本的任務時,如閱讀文件或解讀圖表,現有模型表現尤爲乏力。
Manzano 的設計採用了一種混合圖像標記器,這一核心理念使其能夠輸出兩種類型的標記:連續標記和離散標記。連續標記用浮點數表示圖像,用於理解,而離散標記則將圖像劃分爲固定類別,以便於生成。由於兩種標記都來自同一個編碼器,這減少了傳統模型中可能出現的衝突。
在訓練階段,Manzano 融合了連續和離散適配器來調整語言模型的解碼器。推理時,它提供了理解和生成圖像所需的兩個數據流。Manzano 的架構主要由三部分組成:混合標記器、統一語言模型和用於最終輸出的獨立圖像解碼器。蘋果構建了三種不同參數量的圖像解碼器,分別爲0.9億、1.75億和3.52億個參數,支持256到2048像素的分辨率。
蘋果的測試結果顯示,Manzano 在多個基準測試中表現優異,特別是在處理文本密集型任務如圖表和文件分析方面,30億參數版本的得分尤爲突出。研究還發現,隨着模型參數量從3億到30億增加,性能持續改善。

Manzano 不僅能處理經典的圖像編輯任務,還能執行基於提示的編輯、風格遷移、圖像填充、擴展和深度估計等新任務。蘋果認爲,Manzano 是現有模型的一個可行替代方案,其模塊化設計可能會對未來的多模態 AI 產生深遠影響。
論文:https://arxiv.org/abs/2509.16197
劃重點:
🌟 Manzano 是一種新型圖像模型,能夠同時進行圖像理解和生成。
🔍 蘋果的研究顯示,Manzano 在處理複雜文本任務時表現優異,接近商業系統的水平。
⚙️ 該模型採用混合圖像標記器,減少了圖像理解與生成之間的衝突。
