在瀏覽器自動化領域,開發者長期以來不得不依賴 Selenium、Playwright 或 Puppeteer 等外部工具,通過複雜的截圖或底層協議來“強行”驅動網頁。近日,阿里巴巴開源了一款名爲 Page Agent 的 JavaScript 客戶端庫,爲這一流程帶來了全新的思路:它將瀏覽器自動化從外部驅動轉變爲頁面內部的直接操作。

image.png

Page Agent 的核心技術在於“DOM 脫水”。不同於傳統方案需要將複雜的網頁轉化爲多模態圖片供 AI 識別,Page Agent 直接在網頁內部運行,將實時 DOM 結構壓縮爲輕量化的“FlatDomTree”純文本映射。這一技術創新使得模型無需處理繁重的視覺信息,僅憑精簡的結構文本,就能精準定位並執行點擊按鈕、填寫表單等指令。

image.png

對於開發者而言,這一方案具備明顯的優勢。由於 Page Agent 直接嵌入頁面運行,它能無縫繼承用戶的 Cookie 和會話信息,免去了繁瑣的後端對接與身份驗證工作。該項目採用了模型無關的設計,支持任何兼容 OpenAI 接口的大語言模型。在實際應用場景中,如構建 SaaS 產品內的 AI 副駕、自動化表單處理,乃至提升應用的無障礙交互能力,Page Agent 都能提供極具性價比的落地方案。

image.png

儘管 Page Agent 在易用性上表現亮眼,但開發團隊也強調了其技術邊界:目前該庫聚焦於單頁面範圍內的交互。同時,出於安全性考量,基於提示詞的權限管控(如“禁止自動支付”)屬於引導性限制,而非硬性邏輯隔離。因此,對於涉及資金劃撥或數據修改等高風險操作,開發者仍需在服務端保留嚴格的校驗機制。

目前,Page Agent 已在 GitHub 以 MIT 協議開源。對於希望快速在自有應用中內嵌 AI 操作能力,又不願投入高昂多模態模型成本的團隊來說,這無疑提供了一個高效且務實的工程選擇。