谷歌近日爲其輕量級模型 Gemini3Flash 推出了一項名爲“Agentic Vision(代理視覺)”的重磅功能。這一升級改變了以往 AI 視覺模型“看一眼就猜”的侷限,讓 AI 能夠像人類專家一樣,通過主動探索和深度推理來分析圖像。

過去,AI 在面對信息密集的圖片(如遠處的路牌、複雜的電路圖或微小的文字)時,往往因爲只能一次性處理全局信息而導致細節丟失。而 Agentic Vision 引入了一種“思考、執行、觀察”的循環機制。簡單來說,當用戶提出一個複雜視覺問題時,Gemini3會先制定分析計劃,隨後通過自動生成並執行 Python 代碼,對圖像進行局部剪裁、旋轉或標註,最後再基於這些高清細節給出最終答案。
這種類似“調查員”的工作模式,使 Gemini 在處理高難度視覺任務時的準確性提升了5% 到10%。它不再僅僅是死板地識別像素,而是學會了根據需要“拉近鏡頭”去尋找證據。
目前,這項能力已率先在 Gemini AI Studio 和 Vertex AI 平臺上線,開發者只需開啓“代碼執行”功能即可調用。谷歌表示,該功能未來也將通過“Thinking 模式”直接面向普通用戶開放,讓移動端的 AI 助手也能具備這種深度視覺推理能力。
劃重點:
👁️ 谷歌推出 Agentic Vision 技術,將視覺推理與 Python 代碼執行相結合,告別傳統的靜態識圖模式。
🔍 引入“循環分析”機制,AI 可自主對圖像進行剪裁、放大和標註,顯著提升複雜細節的識別準確度。
🛠️ 該功能已通過 API 向開發者開放,未來將集成至 Gemini 應用的“思維模式”中供普通用戶使用。
