蘋果發佈全新多模態 AI 模型 UniGen 1.5，實現圖像理解、生成與編輯三合一

近日，蘋果研究團隊推出了最新的多模態 AI 模型 UniGen1.5，標誌着圖像處理技術的一次重要突破。該模型不僅能夠理解圖像，還能生成和編輯圖像，這三大功能被成功整合在一個系統中，顯著提升了工作效率。

與傳統方法不同，UniGen1.5採用了統一框架，能夠同時完成圖像理解、生成和編輯。研究人員指出，這種集成的設計使得模型在生成圖像時，可以充分利用其強大的圖像理解能力，從而提供更高質量的視覺輸出。

在圖像編輯方面，UniGen1.5創新性地引入了 “編輯指令對齊” 技術。該技術通過要求模型首先根據原圖和指令生成詳細的文本描述來捕捉用戶的編輯意圖，而不是直接修改圖像。這種 “先想後畫” 的方法有效提高了模型對複雜修改請求的理解和執行準確性。

此外，UniGen1.5在強化學習方面也取得了顯著進展。研究團隊設計了一種統一的獎勵系統，能夠同時應用於圖像生成和編輯的訓練。這種機制克服了編輯任務中質量標準不一致的問題，從而使得模型在處理各種視覺任務時保持高水平的表現。

在多項行業標準測試中，UniGen1.5展現出了強勁的競爭力。在 GenEval 和 DPG-Bench 測試中，該模型分別取得了0.89和86.83的高分，遠超 BAGEL 和 BLIP3o 等其他熱門模型。在專門的圖像編輯測試 ImgEdit 中，UniGen1.5的得分爲4.31，不僅超越了開源模型 OminiGen2，還與一些專有閉源模型如 GPT-Image-1表現相當。

儘管 UniGen1.5表現出色，但研究人員也意識到該模型在某些方面仍有改進空間。例如，模型在生成圖像中的文字時容易出現錯誤，此外，在特定編輯場景中，模型可能會導致主體特徵的漂移，例如動物的毛髮紋理和顏色偏差。未來，蘋果團隊將繼續致力於優化這些問題。

論文：https://arxiv.org/abs/2511.14760

劃重點:
🌟 UniGen1.5是蘋果最新推出的多模態 AI 模型，集成了圖像理解、生成和編輯功能。
🛠️ 該模型通過 “編輯指令對齊” 技術提高了圖像編輯的準確性，有效捕捉用戶意圖。
📊 在行業測試中，UniGen1.5的表現顯著優於其他熱門模型，顯示出強大的競爭力。

Grok Build 0.2.7 重磅更新：/usage、/login 上線，多子代理共享終端 + 圖像理解大提升

xAI旗下AI編碼工具Grok Build發佈0.2.7版本，重點優化用戶管理與多代理協作體驗，提升圖像處理能力和跨平臺易用性。新增/usage命令支持終端內查看用量和配額，/login功能簡化登錄認證與賬號切換，爲開發者提供更流暢的本地編碼工作流。

報道稱DeepSeek 計劃加速模型發佈，V4.1 更新預計將在 6 月亮相

DeepSeek宣佈將於6月推出V4模型更新版V4.1，並加快發佈頻率以追趕競爭對手。此前公司因技術深度獲好評，但模型迭代滯後，140天內未發新模型，同期其他AI公司發佈約50個。V4原定2026年2月發佈，因硬件遷移等問題推遲至4月24日，最終以預覽版形式上線。

商湯科技開源日日新 SenseNova U1，實現多模態原生統一架構

商湯科技發佈並開源日日新SenseNova U1系列模型，基於自研NEO-unify架構，實現多模態理解、推理與生成的深度統一，標誌着從“集成式”向“原生統一”的跨越。該架構摒棄拼接式設計，去除視覺編碼器和變分自編碼器，提升了模型效率與性能。

蘋果發佈全新多模態 AI 模型 UniGen 1.5，實現圖像理解、生成與編輯三合一

相關推薦

6 人團隊 48 小時搞定電影級長視頻！華科大自研AI平臺“愛烏”破解行業穿幫痛點

Grok Build 0.2.7 重磅更新：/usage、/login 上線，多子代理共享終端 + 圖像理解大提升

報道稱DeepSeek 計劃加速模型發佈，V4.1 更新預計將在 6 月亮相

商湯科技開源日日新 SenseNova U1，實現多模態原生統一架構

OpenAI 戰略轉型：ChatGPT 擬接入視頻生成工具 Sora