近日,科技媒體 The Decoder 報道,谷歌 DeepMind 推出了全新的 Gemini2.5Flash 圖像編輯模型。這款升級版模型在 Gemini 應用中爲用戶提供了更加精準的圖像編輯體驗,允許用戶通過文字指令對照片進行大幅修改,而不影響人物和動物的外觀。
與之前的圖像生成工具相比,Gemini2.5Flash 在處理複雜的文字指令時展現出了更高的準確性,甚至在多項任務中超過了 ChatGPT 使用的 GPT-4o。這一進步讓用戶在進行圖像編輯時,能夠更輕鬆地實現他們的創意。

Gemini2.5Flash 的一個亮點是其 “角色一致性” 功能。即使在生成多張圖像時,用戶所指定的人物、動物或物體的外觀也能保持一致,無論姿勢、背景或光線如何變化。這一功能對於品牌的系列照片、產品多角度展示尤其有價值,大大提升了素材與產品目錄的製作效率。

此外,Gemini2.5Flash 支持精準的局部文字編輯,用戶無需手動圈選,便能輕鬆實現背景虛化、去除瑕疵、添加顏色或移除物體等多種操作。它甚至能夠一次融合最多三張圖像,比如將產品照與室內照片結合成一個逼真的場景。此外,它還具備 “風格遷移” 功能,可以將一種紋理、顏色或圖案應用到另一物體上,同時保持形狀與細節的完整性。
Gemini2.5Flash 的 “現實推理” 功能更是突破了傳統圖像編輯的限制,能夠模擬簡單的因果關係,比如生成氣球飛向仙人掌及隨後的結果畫面。這些創新功能使得 Gemini2.5Flash 不僅是一個強大的修圖工具,更是一個能讓用戶發揮想象力的創作平臺。
目前,用戶只需在 Gemini 應用中將模型切換至 “Flash” 即可體驗這款新功能。值得注意的是,生成的圖像將附帶可見水印和不可見的 SynthID 數字水印,以確保作品的版權保護。開發者們也可以通過 Gemini API、Google AI Studio 與 Vertex AI 進行試用,使用費用爲每百萬輸出 token30美元,單張圖像的成本約爲0.039美元。
