近日,清華大學智能產業研究院(AIR)在2024年12月24日發佈了一項名爲 AutoDroid-V2的 AI 模型,旨在優化移動設備的自動化控制能力。該模型通過小型語言模型的應用,顯著提升了用戶通過自然語言進行操作的效率。

AutoDroid-V2採用了一種基於腳本的方法,與傳統依賴雲端大型語言模型(LLM)的方式不同。這一創新使得設備能夠高效執行用戶指令,減少了對雲服務的依賴,從而在隱私和安全性方面有了顯著的提升。同時,它也降低了用戶端的流量消耗及服務器端的運行成本,推進了移動設備的廣泛應用。

image.png

在項目背景上,近年來,大型語言模型和視覺語言模型的崛起使得通過自然語言命令控制移動設備成爲可能。這些技術爲複雜用戶任務的解決提供了新的途徑。然而,傳統的 “逐步 GUI 智能體” 方法存在着高流量消耗和隱私安全風險的問題,使得大規模部署面臨障礙。

AutoDroid-V2的創新之處在於,它能夠根據用戶指令生成多步驟腳本,進而一次性執行多個 GUI 操作。這種方式大幅減少了查詢頻率,降低了資源消耗,並且能夠在用戶設備上直接生成和執行任務腳本。該模型在離線狀態下會構建應用程序文檔,爲後續的腳本生成打下基礎。

在性能測試中,AutoDroid-V2在23款移動應用上進行了226項任務的基準測試,相較於之前的模型,如 AutoDroid 和 SeeClick 等,任務完成率提升了10.5% 到51.7%。此外,其輸入和輸出的 token 消耗分別減少至43.5分之一和5.8分之一,模型推理延遲降低至原來的5.7到13.4分之一。這些成果顯示了 AutoDroid-V2在實際應用中的高效性和可靠性。

劃重點:

🌟 AutoDroid-V2是清華大學推出的新 AI 模型,提升了移動設備的自然語言控制效率。  

🔒 該模型通過小型語言模型減少了對雲端服務的依賴,增強了用戶隱私和安全性。  

📈 基準測試顯示,AutoDroid-V2在任務完成率和資源消耗上均有顯著改善,展現出強大的應用潛力。