蘋果發佈多模態新模型 Manzano:打破“看圖”與“繪圖”的界限

長期以來，人工智能領域存在一個技術痛點:讓模型“理解圖像”和“生成圖像”往往難以兼得。通常，擅長分析圖片的內容（視覺理解）的模型，在從頭創作高質量圖片(圖像生成)時表現乏力，反之亦然。然而，蘋果公司最新發表的研究論文推出了一款名爲“Manzano”的多模態模型，試圖徹底解決這一難題。

Manzano 的核心突破在於其創新的“雙修”架構。研究人員指出，傳統的視覺理解偏好連續的數據流，而圖像生成則依賴離散的數據塊，這導致模型在同時處理兩項任務時容易產生衝突。爲了實現近乎無損的融合，Manzano 引入了“混合視覺分詞器”。它能同時生成連續和離散的視覺表示，再通過大語言模型預測圖像語義，最後由擴散解碼器完成像素級的精細渲染。

在實際測試中，Manzano 展現出了驚人的邏輯理解力。即使面對“一隻鳥在大象下方飛翔”這種違背常規物理常識的複雜指令，它的表現也與 GPT-4o 等頂尖模型旗鼓相當。此外，該模型不僅能畫畫，還能處理深度估計、風格遷移和圖像修復等多種複雜任務。

雖然 Manzano 目前仍處於研究階段，但 AIbase 認爲，這項底層技術的成熟預示着蘋果未來的 AI 功能將更加強大。該技術極有可能被整合進蘋果的“圖樂園”（Image Playground）等工具中，爲用戶提供更智能、更具想象力的創作體驗。

項目:https://machinelearning.apple.com/research/manzano

劃重點:

👁️ 全能架構: Manzano採用了創新的三段式架構，成功融合了“視覺理解”與“圖像生成”功能，解決了傳統模型難以兼顧兩者的衝突。
🧠 邏輯領先: 在處理反直覺和複雜空間關係的指令時，Manzano 的邏輯準確性已達到行業頂尖水平，足以媲美GPT-4o等主流模型。
🚀 潛力巨大: 該模型支持從3億到300億參數的靈活擴展，未來有望顯著提升 iPhone 和 Mac 等端側設備的 AI 繪圖與修圖能力。

蘋果發佈多模態新模型 Manzano:打破“看圖”與“繪圖”的界限

相關推薦

軟銀攜手Sierra在日本推出AI客服服務，客戶滿意度從74%飆升至93%

DeepSeek梁文鋒身價飆升至 360 億美元，成AI公司新首富

DeepSeek完成74億美元融資，梁文鋒身家升至360億美元

代碼100%由AI編寫： 9 年iOS開發者 15 天打造外賣遊戲，斬獲2. 5 萬美元獎金

面壁智能CTO曾國洋：從“打字機”到大模型，端側AI的進化與突圍

​蘋果發佈多模態新模型 Manzano:打破“看圖”與“繪圖”的界限

相關推薦

軟銀攜手Sierra在日本推出AI客服服務，客戶滿意度從74%飆升至93%

DeepSeek梁文鋒身價飆升至 360 億美元，成AI公司新首富

DeepSeek完成74億美元融資，梁文鋒身家升至360億美元

代碼100%由AI編寫： 9 年iOS開發者 15 天打造外賣遊戲，斬獲2. 5 萬美元獎​金

面壁智能CTO曾國洋：從“打字機”到大模型，端側AI的進化與突圍

蘋果發佈多模態新模型 Manzano:打破“看圖”與“繪圖”的界限

代碼100%由AI編寫： 9 年iOS開發者 15 天打造外賣遊戲，斬獲2. 5 萬美元獎金