谷歌 Gemini 測試版曝光:新增圖像標記工具與對話式局部編輯功能

谷歌近日在 Gemini 安卓應用17.10.54.sa.arm64測試版中，展示了針對生成式圖像編輯功能的重大升級。該版本通過引入深度集成的標記（Markup）界面與實時文本描述框，旨在解決當前 AI 圖像二次創作中指令傳遞不精準、操作鏈路斷裂的痛點，進一步強化了 Gemini 對生成內容(如 Nano Banana 圖像)的局部調優能力。

此次技術迭代的核心在於交互邏輯的重構。相較於此前僅支持基礎塗鴉、且需退出編輯界面後再向機器人下達指令的初級方案，新版界面允許用戶在點擊“鉛筆”圖標後，直接在圖像特定區域進行高精度標記，並同步在底部新增的文本框中輸入修改意圖。

這種“視覺定位+自然語言”的雙模態交互方式，顯著提升了模型對特定局部修改指令的理解精度。此外，測試版還預留了調整大小（Resizing）及特效(Effects)選項空間，預示着 Gemini 正在從單一的文生圖工具向集生成、修剪、濾鏡處理於一體的綜合性圖像工作站演進。

從行業趨勢看，谷歌此舉反映了生成式 AI 競爭重心正從“從無到有”的單純生成，轉向“精益求精”的受控編輯。通過將複雜的標記工具融入移動端原生應用，谷歌試圖在移動 AI 攝影與數字創作領域建立更高的交互門檻。

儘管上述功能目前仍處於代碼分析階段，尚未正式面向公衆開放，但其展現出的“即標即改”邏輯，預示着多模態模型在感知用戶精細化審美意圖方面邁出了關鍵一步，將進一步加速 AI 繪畫從娛樂化向專業化創作流程的滲透。

谷歌 Gemini 測試版曝光:新增圖像標記工具與對話式局部編輯功能

相關推薦

谷歌詳解安卓 Halo：狀態欄專屬區域，打造 AI 智能體交互中樞

算力告急：谷歌限制 Meta 訪問 Gemini 模型，促使 Meta 加速自主研發

算力短缺瓶頸顯現:谷歌限制Meta訪問Gemini AI模型

體驗再升級！谷歌Gemini個性化AI繪圖功能對美國用戶免費開放

今天起，全美谷歌 Gemini 免費用戶都可使用個性化 AI 生圖功能