阿里巴巴通義實驗室近日發佈了 MAI-UI,這是一個多模態的基礎 GUI 智能代理家族。該系統不僅能夠實現人機交互,還能整合 MCP 工具使用、設備與雲端協作,以及在線強化學習,從而在通用 GUI 基礎和移動 GUI 導航方面取得了領先的成果,超越了 Gemini2.5Pro、Seed1.8和 UI-Tars2等同行。

MAI-UI 採用了 Qwen3VL 構建,具有2B、8B、32B 和235B A22B 等不同規模的模型。這些模型能夠接收自然語言指令和 UI 截圖作爲輸入,並輸出結構化的操作,支持在實時 Android 環境中進行操作。這些操作包括點擊元素、滑動、輸入文本以及按下系統按鈕等。同時,MAI-UI 還引入了能夠回答用戶問題、請求用戶澄清模糊目標的明確動作,並通過 MCP 工具調用外部工具,使代理能夠在同一軌跡中混合 GUI 步驟、直接語言響應和 API 級操作。

在 GUI 的基礎上,MAI-UI 通過自我演進的數據管道和在線強化學習框架,確保其導航能力的穩健性。Tongyi 實驗室利用從應用手冊、設計場景和公共數據中獲取的種子任務,經過多個代理與人類標註員的執行,生成任務軌跡,從而優化導航行爲。
在 MobileWorld 基準測試中,MAI-UI 展示了其卓越的性能,成功率達到41.7%。在 AndroidWorld 基準測試中,MAI-UI 的最大變體成功率爲76.7%,超越了其他同類產品。
MAI-UI 的推出標誌着在移動應用領域的 GUI 智能代理技術取得了重大進展,使得智能設備在處理複雜操作時更爲高效和智能。
github:https://github.com/Tongyi-MAI/MAI-UI
劃重點:
🌟 MAI-UI 是阿里巴巴 Tongyi 實驗室推出的 GUI 智能代理家族,整合多項先進技術。
📱 MAI-UI 支持多種操作,並能夠在實時 Android 環境中進行復雜的用戶交互。
🚀 在 MobileWorld 和 AndroidWorld 等基準測試中,MAI-UI 的性能顯著超越競爭對手。
