最近、アリババのQwenチームは、GUI(グラフィカルユーザーインターフェース)自動化における一連の課題を解決することを目的とした2つの革新的な製品—Mobile-Agent-v3とGUI-Owlをリリースしました。
現代のコンピューティングデバイスは一般的にグラフィカルユーザーインターフェースを採用していますが、従来の自動化方法は複雑なスクリプトや手動ルールに依存しており、効果が十分ではありませんでした。GUI-Owlは、Qwen2.5-VLを基盤として構築された新しいマルチモーダルエージェントモデルであり、大量のGUIインタラクションデータに基づいて後続のトレーニングが行われており、タスクの理解と実行能力の向上を目的としています。

GUI-Owlの設計目的は、現実世界のGUI環境の多様性と動的性に対応することです。このモデルは、認識、推論、計画、実行の能力を統合し、統一されたポリシーネットワークを提供します。このような設計により、複雑なタスクにおいて複数回の意思決定を行うことができ、明確な推論プロセスを維持しながら、実際の使用状況での変化に対応することが可能です。
高品質なデータを確保するため、チームは自己進化型のデータ生成パイプラインを開発しました。このパイプラインは、現実的なアプリケーションのナビゲーションフローを生成し、人間による注釈によって検証されるため、生成されたデータの真実性と有効性を保証しています。また、チームはさまざまなデータ合成戦略を使用して、モデルの学習内容を豊かにし、タスク実行時の適応性と柔軟性を強化しています。

Mobile-Agent-v3フレームワークは、マルチエージェントの協働に重点を置き、複雑なタスクをサブゴールに分解し、実行フィードバックに基づいて計画を動的に更新することで処理します。フレームワークには、マネージャーエージェント、ワーカーエージェント、リフレクションエージェント、ノートエージェントという4つの専門エージェントが含まれており、それぞれが異なる役割を担い、タスクの実行効率と成功確率を向上させます。複数ラウンドのテストと評価を通じて、GUI-OwlとMobile-Agent-v3は多くのGUI自動化ベンチマークで優れたパフォーマンスを示し、特にクロスプラットフォームのタスク完了能力において顕著です。
これらの革新ツールのリリースは、アリババが汎用的なGUI自動化分野において重要な進展を遂げたことを示しています。今後は、より広範な用途シーンにおいて、より強力な技術的サポートを提供していく予定です。
論文:https://arxiv.org/abs/2508.15144
github:https://github.com/X-PLUG/MobileAgent
ポイント:
🌟 GUI-Owlはアリババがリリースしたマルチモーダルエージェントモデルで、認識、推論、実行の能力を統合し、複雑なGUI環境に適応します。
🤖 Mobile-Agent-v3フレームワークは、動的に計画を更新することでタスク実行効率を向上させるマルチエージェント協働を実現します。
📊 この2つの製品はGUI自動化ベンチマークで優れたパフォーマンスを示し、自動化分野におけるアリババの重要な突破を示しています。
