谷歌 Gemini 3 Flash 升級：新增“Agentic Vision”讓 AI 像專家一樣深度看圖

谷歌近日爲其輕量級模型 Gemini3Flash 推出了一項名爲“Agentic Vision（代理視覺）”的重磅功能。這一升級改變了以往 AI 視覺模型“看一眼就猜”的侷限，讓 AI 能夠像人類專家一樣，通過主動探索和深度推理來分析圖像。

過去，AI 在面對信息密集的圖片（如遠處的路牌、複雜的電路圖或微小的文字）時，往往因爲只能一次性處理全局信息而導致細節丟失。而 Agentic Vision 引入了一種“思考、執行、觀察”的循環機制。簡單來說，當用戶提出一個複雜視覺問題時，Gemini3會先制定分析計劃，隨後通過自動生成並執行 Python 代碼，對圖像進行局部剪裁、旋轉或標註，最後再基於這些高清細節給出最終答案。

這種類似“調查員”的工作模式，使 Gemini 在處理高難度視覺任務時的準確性提升了5% 到10%。它不再僅僅是死板地識別像素，而是學會了根據需要“拉近鏡頭”去尋找證據。

目前，這項能力已率先在 Gemini AI Studio 和 Vertex AI 平臺上線，開發者只需開啓“代碼執行”功能即可調用。谷歌表示，該功能未來也將通過“Thinking 模式”直接面向普通用戶開放，讓移動端的 AI 助手也能具備這種深度視覺推理能力。

劃重點:

👁️ 谷歌推出 Agentic Vision 技術，將視覺推理與 Python 代碼執行相結合，告別傳統的靜態識圖模式。
🔍 引入“循環分析”機制，AI 可自主對圖像進行剪裁、放大和標註，顯著提升複雜細節的識別準確度。
🛠️ 該功能已通過 API 向開發者開放，未來將集成至 Gemini 應用的“思維模式”中供普通用戶使用。

谷歌 Gemini 3 Flash 升級：新增“Agentic Vision”讓 AI 像專家一樣深度看圖

相關推薦

百度智能雲全面提速：AI 收入增速目標翻倍至 200%

英國政府祭出“全民 AI 計劃”：向全體成年人提供免費在線培訓

00 後天才少年領軍：ThetaWave AI 獲數百萬美元 Pre-A 輪融資

螞蟻集團靈波科技開源具身大模型 LingBot-VLA，後訓練工具鏈同步開放

Allen AI 發佈開源編程智能體 SERA:最低僅需400美元即可適配私有代碼庫

谷歌 Gemini 3 Flash 升級：新增“Agentic Vision”讓 AI 像專家一樣深度看圖

相關推薦

百度智能雲全面提速：AI 收入增速目標翻倍至 200%

​英國政府祭出“全民 AI 計劃”：向全體成年人提供免費在線培訓

00 後天才少年領軍：ThetaWave AI 獲數百萬美元 Pre-A 輪融資

螞蟻集團靈波科技開源具身大模型 LingBot-VLA，後訓練工具鏈同步開放

Allen AI 發佈開源編程智能體 SERA:最低僅需400美元即可適配私有代碼庫

英國政府祭出“全民 AI 計劃”：向全體成年人提供免費在線培訓