谷歌近日預覽了一款全新的 Gemini AI 模型——Gemini2.5Computer Use,旨在賦予 AI 代理通過瀏覽器導航和交互網頁的能力。這款模型利用其強大的“視覺理解和推理能力”,能夠像人類一樣分析用戶請求,並在原本爲人類而非機器人設計的界面內執行復雜操作,例如填寫和提交表單。

AI 代理的新前沿
Gemini2.5Computer Use 使得 AI 能夠執行過去需要人類干預的任務。它的主要應用場景包括 UI 測試,以及爲那些沒有 API 或直接連接的用戶導航網頁界面。該模型的早期版本曾用於 Mariner 項目——一個使用 AI 代理在瀏覽器中自行完成任務的研究原型,比如根據配料列表將商品添加到購物車。
這款新模型的發佈正值 AI 代理功能競爭白熱化之際。就在谷歌宣佈的前一天,OpenAI 在其開發者日上發佈了新的 ChatGPT 應用並持續關注其 Agent 功能,該功能可爲用戶完成複雜任務。同時,Anthropic 去年也發佈了一個帶有“計算機使用”功能的 Claude AI 模型版本。
性能與限制
谷歌聲稱,其 Gemini2.5Computer Use 模型“在多個網絡和移動基準測試中均優於領先的替代方案”。
然而,與 ChatGPT Agent 和 Anthropic 的類似工具不同,谷歌的新 AI 模型目前只能訪問瀏覽器環境,而不能控制整個計算機環境。谷歌指出,該模型“尚未針對桌面操作系統級別的控制進行優化”,當前支持 13種操作,包括打開網絡瀏覽器、輸入文本以及拖放元素。
如何體驗
開發者現在可以通過 Google AI Studio 和 Vertex AI 體驗 Gemini2.5Computer Use。
對於普通用戶和感興趣者,Browserbase 提供了一個演示,可以觀看該模型完成諸如“玩2048遊戲”或“瀏覽 Hacker News 以瞭解熱門辯論”等任務。
