アリババ・トンイラボは最近、MAI-UIを発表しました。これはマルチモーダルな基本的なGUIインテリジェントエージェントのシリーズです。このシステムは人間とコンピュータのインタラクションだけでなく、MCPツールの使用、デバイスとクラウドの協働、オンライン強化学習を統合しており、汎用的なGUIベースおよびモバイルGUIナビゲーションにおいて優れた成果を収め、Gemini2.5Pro、Seed1.8、UI-Tars2などの競合を上回っています。

image.png

MAI-UIはQwen3VLに基づいて構築されており、2B、8B、32B、235B A22Bなどさまざまな規模のモデルがあります。これらのモデルは自然言語の指示とUIスクリーンショットを入力として受け取り、構造化された操作を出力し、リアルタイムのAndroid環境で操作が可能です。このような操作には、要素のクリック、スライド、テキストの入力、システムボタンの押下などが含まれます。また、MAI-UIはユーザーの質問に答えたり、曖昧な目標を明確にするためのユーザーからの説明を求める機能も備えており、MCPツールを通じて外部ツールを呼び出すことで、エージェントが同じトラック内でGUIステップ、直接的な言語応答、APIレベルの操作を混合できるようにしています。

image.png

GUIの基盤上で、MAI-UIは自己進化するデータパイプラインとオンライン強化学習フレームワークにより、ナビゲーション能力の信頼性を確保しています。トンイラボはアプリケーションマニュアル、デザインシナリオ、公開データから得たシードタスクを使用し、複数のエージェントと人間のラベラーによる実行を経て、タスクトレースを生成し、ナビゲーション行動を最適化しています。

MobileWorldベンチマークテストでは、MAI-UIは優れた性能を示し、成功確率は41.7%に達しました。AndroidWorldベンチマークテストでは、MAI-UIの最大バリアントの成功率は76.7%に達し、他の類似製品を上回りました。

MAI-UIの登場は、モバイルアプリケーション分野におけるGUIインテリジェントエージェント技術の大きな進歩を示しており、スマートデバイスが複雑な操作を処理する際により効率的かつ知能的に働くことができるようになりました。

github:https://github.com/Tongyi-MAI/MAI-UI

ポイント:  

🌟 MAI-UIはアリババ・トンイラボがリリースしたGUIインテリジェントエージェントシリーズであり、いくつかの先端技術を統合しています。

📱 MAI-UIはさまざまな操作をサポートし、リアルタイムのAndroid環境で複雑なユーザーインターフェースを扱うことができます。

🚀 MobileWorldやAndroidWorldなどのベンチマークテストにおいて、MAI-UIのパフォーマンスは競合他社を大幅に上回っています。