清華大学知能産業研究院(AIR)は、2024年12月24日、モバイル機器の自動制御能力を最適化するAIモデル「AutoDroid-V2」を発表しました。このモデルは、小型言語モデルを用いることで、自然言語による操作効率を大幅に向上させています。
AutoDroid-V2は、クラウド上の大規模言語モデル(LLM)に依存する従来の方法とは異なり、スクリプトベースのアプローチを採用しています。この革新的な手法により、機器はユーザーの指示を効率的に実行でき、クラウドサービスへの依存度を低減することで、プライバシーとセキュリティが大幅に向上します。同時に、ユーザー側のトラフィック消費とサーバー側の運用コストも削減し、モバイル機器の普及を促進します。

近年、大規模言語モデルと視覚言語モデルの台頭により、自然言語コマンドによるモバイル機器の制御が可能になりました。これらの技術は、複雑なユーザータスクの解決に新たな道を拓きました。しかし、従来の「段階的GUIエージェント」方式は、高いトラフィック消費とプライバシー・セキュリティリスクの問題を抱えており、大規模展開の障壁となっていました。
AutoDroid-V2の革新的な点は、ユーザーの指示に基づいて複数ステップのスクリプトを生成し、一度に複数のGUI操作を実行できることです。この方式により、問い合わせ頻度が大幅に減少し、リソース消費が削減され、ユーザー機器上でタスクスクリプトを直接生成・実行できます。オフライン状態ではアプリケーションドキュメントを構築し、後続のスクリプト生成の基礎を築きます。
性能テストでは、23種類のモバイルアプリケーションで226個のタスクのベンチマークテストを実施した結果、AutoDroidやSeeClickなどの以前のモデルと比較して、タスク完了率が10.5%~51.7%向上しました。さらに、入力と出力のトークン消費量はそれぞれ43.5分の1と5.8分の1に減少、モデル推論遅延は元の5.7分の1~13.4分の1に短縮されました。これらの成果は、AutoDroid-V2の実用的な効率性と信頼性を示しています。
ポイント:
🌟 AutoDroid-V2は清華大学が開発した新しいAIモデルで、モバイル機器の自然言語制御効率を向上させます。
🔒 小型言語モデルを使用することで、クラウドサービスへの依存度を低減し、ユーザーのプライバシーとセキュリティを強化します。
📈 ベンチマークテストの結果、AutoDroid-V2はタスク完了率とリソース消費の両方で顕著な改善を示し、強力な応用可能性を秘めています。
