谷歌近日在 Gemini 安卓應用17.10.54.sa.arm64測試版中,展示了針對生成式圖像編輯功能的重大升級。該版本通過引入深度集成的標記(Markup)界面與實時文本描述框,旨在解決當前 AI 圖像二次創作中指令傳遞不精準、操作鏈路斷裂的痛點,進一步強化了 Gemini 對生成內容(如 Nano Banana 圖像)的局部調優能力。

此次技術迭代的核心在於交互邏輯的重構。相較於此前僅支持基礎塗鴉、且需退出編輯界面後再向機器人下達指令的初級方案,新版界面允許用戶在點擊“鉛筆”圖標後,直接在圖像特定區域進行高精度標記,並同步在底部新增的文本框中輸入修改意圖。
這種“視覺定位+自然語言”的雙模態交互方式,顯著提升了模型對特定局部修改指令的理解精度。此外,測試版還預留了調整大小(Resizing)及特效(Effects)選項空間,預示着 Gemini 正在從單一的文生圖工具向集生成、修剪、濾鏡處理於一體的綜合性圖像工作站演進。
從行業趨勢看,谷歌此舉反映了生成式 AI 競爭重心正從“從無到有”的單純生成,轉向“精益求精”的受控編輯。通過將複雜的標記工具融入移動端原生應用,谷歌試圖在移動 AI 攝影與數字創作領域建立更高的交互門檻。
儘管上述功能目前仍處於代碼分析階段,尚未正式面向公衆開放,但其展現出的“即標即改”邏輯,預示着多模態模型在感知用戶精細化審美意圖方面邁出了關鍵一步,將進一步加速 AI 繪畫從娛樂化向專業化創作流程的滲透。
