蘋果推出新圖像模型 Manzano 實現理解與生成雙重能力

蘋果公司最近在其研究中介紹了一種名爲 Manzano 的新型圖像模型，該模型旨在同時處理圖像理解和生成。這一雙重能力的實現是當前許多開源模型面臨的技術難題，而蘋果表示，這使其在圖像處理的效率和效果上更接近商業系統，如 OpenAI 和谷歌所提供的技術。

目前，Manzano 尚未對外發布，也沒有進行公開演示。但蘋果的研究團隊分享了一篇研究論文，附帶了一些低分辨率的圖像樣本，展示了模型在處理複雜提示時的能力。這些樣本與開源模型 Deepseek Janus Pro 和商業系統 GPT-4o、Gemini2.5Flash Image Generation（又名 “Nano Banana”）的輸出進行了對比。在三組挑戰性提示的測試中，Manzano 的表現與 OpenAI 的 GPT-4o 和谷歌的 Nano Banana 相當。

蘋果指出，目前大多數開源模型的核心限制在於，它們往往需要在強大的圖像分析和生成能力之間進行選擇，而商業系統則能夠兩者兼顧。尤其是在處理包含大量文本的任務時，如閱讀文件或解讀圖表，現有模型表現尤爲乏力。

Manzano 的設計採用了一種混合圖像標記器，這一核心理念使其能夠輸出兩種類型的標記:連續標記和離散標記。連續標記用浮點數表示圖像，用於理解，而離散標記則將圖像劃分爲固定類別，以便於生成。由於兩種標記都來自同一個編碼器，這減少了傳統模型中可能出現的衝突。

在訓練階段，Manzano 融合了連續和離散適配器來調整語言模型的解碼器。推理時，它提供了理解和生成圖像所需的兩個數據流。Manzano 的架構主要由三部分組成:混合標記器、統一語言模型和用於最終輸出的獨立圖像解碼器。蘋果構建了三種不同參數量的圖像解碼器，分別爲0.9億、1.75億和3.52億個參數，支持256到2048像素的分辨率。

蘋果的測試結果顯示，Manzano 在多個基準測試中表現優異，特別是在處理文本密集型任務如圖表和文件分析方面，30億參數版本的得分尤爲突出。研究還發現，隨着模型參數量從3億到30億增加，性能持續改善。

Manzano 不僅能處理經典的圖像編輯任務，還能執行基於提示的編輯、風格遷移、圖像填充、擴展和深度估計等新任務。蘋果認爲，Manzano 是現有模型的一個可行替代方案，其模塊化設計可能會對未來的多模態 AI 產生深遠影響。

論文:https://arxiv.org/abs/2509.16197

劃重點:
🌟 Manzano 是一種新型圖像模型，能夠同時進行圖像理解和生成。
🔍 蘋果的研究顯示，Manzano 在處理複雜文本任務時表現優異，接近商業系統的水平。
⚙️ 該模型採用混合圖像標記器，減少了圖像理解與生成之間的衝突。

蘋果推出新圖像模型 Manzano 實現理解與生成雙重能力

相關推薦

蘋果 41 頁訴狀怒撕OpenAI，爲何唯獨放過了傳奇設計師伊夫？

蘋果起訴OpenAI：昔日員工被指利用“零日漏洞”竊取核心機密

Siri 迎來全面 AI 進化!蘋果正式發佈 iOS27首個公開測試版

蘋果正式起訴OpenAI指控其竊取商業機密，涉及前高管及核心AI硬件項目

27B大模型塞進iPhone！蘋果看中AI壓縮黑科技：體積縮到十四分之一，速度還快 8 倍

蘋果推出新圖像模型 Manzano 實現理解與生成雙重能力

相關推薦

蘋果 41 頁訴狀怒撕OpenAI，爲何唯獨放過了傳奇設計師伊夫？

蘋果起訴OpenAI：昔日員工被指利用“零日漏洞”竊取核心機密

Siri 迎來全面 AI 進化!蘋果正式發佈 iOS27首個公開測試版

蘋果正式起訴OpenAI指控其竊取商業機密，涉及前高管及核心AI硬件項目

​27B大模型塞進iPhone！蘋果看中AI壓縮黑科技：體積縮到十四分之一，速度還快 8 倍

27B大模型塞進iPhone！蘋果看中AI壓縮黑科技：體積縮到十四分之一，速度還快 8 倍