微軟 Webwright 開源：網頁智能體從“點擊式”進化爲“代碼式”

微軟研究院近日開源了全新網頁智能體（Web Agent）框架 Webwright。該框架摒棄了當前主流的“截圖/DOM 點擊”預測模式，轉而讓 AI 模型直接在終端內編寫 Playwright 代碼及執行 Bash 命令，以更高效、更具邏輯性的方式完成複雜網頁任務。

Webwright 的設計理念非常硬核——“一個終端勝過萬千抽象”。其整個框架代碼量僅約 1，000行，由三個核心模塊構成，且無任何複雜的多智能體編排:

Runner （約150行）: 負責智能體循環的核心邏輯，管理上下文與執行。
Model Endpoint （約550行）: 統一的模型交互接口，支持 OpenAI、Anthropic 及 OpenRouter 等後端。
Terminal Environment （約300行）: 提供一個隔離的終端執行環境，讓模型在此運行 Playwright 腳本、查看日誌、分析截圖並執行調試。

工作流程: Runner 發送當前任務上下文給模型 → 模型生成“思考過程”與“Shell 命令” → 環境執行並返回結果（輸出、截圖、報錯棧） → 進入下一輪循環，直至任務完成。

當前主流智能體通過不斷預測“點擊、滾動、輸入”來操作瀏覽器，這種模式存在效率低、狀態維持困難等瓶頸。Webwright 的代碼驅動模式帶來了顯著優勢:

邏輯複用: 每次操作生成的都是可重用的 RPA（機器人流程自動化）腳本，而非一次性點擊記錄。這些腳本可在 Claude Code、Codex 等其他工具中被調用。
複雜邏輯處理: 代碼天然支持循環、函數與邏輯分支，對於填寫表單、跨頁面操作、條件跳轉等長鏈路任務，代碼的表達力遠超簡單的動作堆砌。
工程化糾錯: 通過執行報錯後的堆棧分析，模型可以自主進入“寫代碼-運行-報錯-修復”的迭代循環，極大提升了任務成功率。

針對智能體常遇到的兩大痛點，Webwright 引入了針對性方案:

門控自檢機制: 防止模型“幻覺性”宣告任務完成。模型必須先生成一份“自檢配置”，並在乾淨的環境中運行最終腳本，通過自我反思判斷任務是否真正達成，才能輸出完成標記。
歷史壓縮: 爲應對長軌跡導致的上下文超載，系統每執行20步就會將歷史對話壓縮爲一份概要摘要，確保上下文窗口始終聚焦核心進展。

在2026年5月的基準測試中，Webwright 表現優異:

Online-Mind2Web: 基於 GPT-5.4的 Webwright 在100步預算內達到了 86.67% 的準確率，在同類開源方案中位居前列。
Odysseys （長鏈路任務）: 面對平均272詞的複雜指令，Webwright + GPT-5.4取得了 60.1% 的得分，相較於基礎 GPT-5.4（33.5%）實現了約 81.5% 的性能增幅，並超越了4月榜單的冠軍模型 Opus4.6（44.5%）。

Webwright 的出現展示了一個重要趨勢:隨着模型編程能力的提升，智能體正在向“開發者範式”轉型。通過將瀏覽器視爲一個可編程的端點，而非單純的交互界面，Webwright 成功將 AI 網頁任務的執行效率與魯棒性提升到了新的高度。

對於廣大開發者而言，Webwright 不僅是一個智能體框架，更是一個能幫你自動編寫、維護和打包自動化腳本的“超級員工”。目前該項目已在 GitHub 開源。

WAIC2026 大會火力全開！大模型概念股 MINIMAX 與智譜股價狂飆超 8%