長期以來,人工智能領域存在一個技術痛點:讓模型“理解圖像”和“生成圖像”往往難以兼得。通常,擅長分析圖片的內容(視覺理解)的模型,在從頭創作高質量圖片(圖像生成)時表現乏力,反之亦然。然而,蘋果公司最新發表的研究論文推出了一款名爲“Manzano”的多模態模型,試圖徹底解決這一難題。

Manzano 的核心突破在於其創新的“雙修”架構。研究人員指出,傳統的視覺理解偏好連續的數據流,而圖像生成則依賴離散的數據塊,這導致模型在同時處理兩項任務時容易產生衝突。爲了實現近乎無損的融合,Manzano 引入了“混合視覺分詞器”。它能同時生成連續和離散的視覺表示,再通過大語言模型預測圖像語義,最後由擴散解碼器完成像素級的精細渲染。

在實際測試中,Manzano 展現出了驚人的邏輯理解力。即使面對“一隻鳥在大象下方飛翔”這種違背常規物理常識的複雜指令,它的表現也與 GPT-4o 等頂尖模型旗鼓相當。此外,該模型不僅能畫畫,還能處理深度估計、風格遷移和圖像修復等多種複雜任務。
雖然 Manzano 目前仍處於研究階段,但 AIbase 認爲,這項底層技術的成熟預示着蘋果未來的 AI 功能將更加強大。該技術極有可能被整合進蘋果的“圖樂園”(Image Playground)等工具中,爲用戶提供更智能、更具想象力的創作體驗。
項目:https://machinelearning.apple.com/research/manzano
劃重點:
👁️ 全能架構:
採用了創新的三段式架構,成功融合了“視覺理解”與“圖像生成”功能,解決了傳統模型難以兼顧兩者的衝突。Manzano 🧠 邏輯領先: 在處理反直覺和複雜空間關係的指令時,Manzano 的邏輯準確性已達到行業頂尖水平,足以媲美
等主流模型。GPT-4o 🚀 潛力巨大: 該模型支持從3億到300億參數的靈活擴展,未來有望顯著提升 iPhone 和 Mac 等端側設備的 AI 繪圖與修圖能力。
