微軟研究院近日開源了全新網頁智能體(Web Agent)框架 Webwright。該框架摒棄了當前主流的“截圖/DOM 點擊”預測模式,轉而讓 AI 模型直接在終端內編寫 Playwright 代碼及執行 Bash 命令,以更高效、更具邏輯性的方式完成複雜網頁任務。

一、核心架構:極簡化的“終端優先”範式
Webwright 的設計理念非常硬核——“一個終端勝過萬千抽象”。其整個框架代碼量僅約 1,000行,由三個核心模塊構成,且無任何複雜的多智能體編排:
Runner (約150行): 負責智能體循環的核心邏輯,管理上下文與執行。
Model Endpoint (約550行): 統一的模型交互接口,支持 OpenAI、Anthropic 及 OpenRouter 等後端。
Terminal Environment (約300行): 提供一個隔離的終端執行環境,讓模型在此運行 Playwright 腳本、查看日誌、分析截圖並執行調試。
工作流程: Runner 發送當前任務上下文給模型 → 模型生成“思考過程”與“Shell 命令” → 環境執行並返回結果(輸出、截圖、報錯棧) → 進入下一輪循環,直至任務完成。

二、爲何要從“點擊”轉向“寫代碼”?
當前主流智能體通過不斷預測“點擊、滾動、輸入”來操作瀏覽器,這種模式存在效率低、狀態維持困難等瓶頸。Webwright 的代碼驅動模式帶來了顯著優勢:
邏輯複用: 每次操作生成的都是可重用的 RPA(機器人流程自動化)腳本,而非一次性點擊記錄。這些腳本可在 Claude Code、Codex 等其他工具中被調用。
複雜邏輯處理: 代碼天然支持循環、函數與邏輯分支,對於填寫表單、跨頁面操作、條件跳轉等長鏈路任務,代碼的表達力遠超簡單的動作堆砌。
工程化糾錯: 通過執行報錯後的堆棧分析,模型可以自主進入“寫代碼-運行-報錯-修復”的迭代循環,極大提升了任務成功率。
三、工程突破:解決“僞成功”與“上下文膨脹”
針對智能體常遇到的兩大痛點,Webwright 引入了針對性方案:
門控自檢機制: 防止模型“幻覺性”宣告任務完成。模型必須先生成一份“自檢配置”,並在乾淨的環境中運行最終腳本,通過自我反思判斷任務是否真正達成,才能輸出完成標記。
歷史壓縮: 爲應對長軌跡導致的上下文超載,系統每執行20步就會將歷史對話壓縮爲一份概要摘要,確保上下文窗口始終聚焦核心進展。
四、測試表現:性能碾壓基準線
在2026年5月的基準測試中,Webwright 表現優異:
Online-Mind2Web: 基於 GPT-5.4的 Webwright 在100步預算內達到了 86.67% 的準確率,在同類開源方案中位居前列。
Odysseys (長鏈路任務): 面對平均272詞的複雜指令,Webwright + GPT-5.4取得了 60.1% 的得分,相較於基礎 GPT-5.4(33.5%)實現了約 81.5% 的性能增幅,並超越了4月榜單的冠軍模型 Opus4.6(44.5%)。
行業評價
Webwright 的出現展示了一個重要趨勢:隨着模型編程能力的提升,智能體正在向“開發者範式”轉型。通過將瀏覽器視爲一個可編程的端點,而非單純的交互界面,Webwright 成功將 AI 網頁任務的執行效率與魯棒性提升到了新的高度。
對於廣大開發者而言,Webwright 不僅是一個智能體框架,更是一個能幫你自動編寫、維護和打包自動化腳本的“超級員工”。目前該項目已在 GitHub 開源。
