近日,蘋果研究團隊推出了最新的多模態 AI 模型 UniGen1.5,標誌着圖像處理技術的一次重要突破。該模型不僅能夠理解圖像,還能生成和編輯圖像,這三大功能被成功整合在一個系統中,顯著提升了工作效率。

與傳統方法不同,UniGen1.5採用了統一框架,能夠同時完成圖像理解、生成和編輯。研究人員指出,這種集成的設計使得模型在生成圖像時,可以充分利用其強大的圖像理解能力,從而提供更高質量的視覺輸出。

image.png

在圖像編輯方面,UniGen1.5創新性地引入了 “編輯指令對齊” 技術。該技術通過要求模型首先根據原圖和指令生成詳細的文本描述來捕捉用戶的編輯意圖,而不是直接修改圖像。這種 “先想後畫” 的方法有效提高了模型對複雜修改請求的理解和執行準確性。

此外,UniGen1.5在強化學習方面也取得了顯著進展。研究團隊設計了一種統一的獎勵系統,能夠同時應用於圖像生成和編輯的訓練。這種機制克服了編輯任務中質量標準不一致的問題,從而使得模型在處理各種視覺任務時保持高水平的表現。

在多項行業標準測試中,UniGen1.5展現出了強勁的競爭力。在 GenEval 和 DPG-Bench 測試中,該模型分別取得了0.89和86.83的高分,遠超 BAGEL 和 BLIP3o 等其他熱門模型。在專門的圖像編輯測試 ImgEdit 中,UniGen1.5的得分爲4.31,不僅超越了開源模型 OminiGen2,還與一些專有閉源模型如 GPT-Image-1表現相當。

儘管 UniGen1.5表現出色,但研究人員也意識到該模型在某些方面仍有改進空間。例如,模型在生成圖像中的文字時容易出現錯誤,此外,在特定編輯場景中,模型可能會導致主體特徵的漂移,例如動物的毛髮紋理和顏色偏差。未來,蘋果團隊將繼續致力於優化這些問題。

論文:https://arxiv.org/abs/2511.14760

劃重點:  

🌟 UniGen1.5是蘋果最新推出的多模態 AI 模型,集成了圖像理解、生成和編輯功能。  

🛠️ 該模型通過 “編輯指令對齊” 技術提高了圖像編輯的準確性,有效捕捉用戶意圖。  

📊 在行業測試中,UniGen1.5的表現顯著優於其他熱門模型,顯示出強大的競爭力。