「一言で完結」がマーケティングスローガンから現実の体験へと変化したことで、スマホはやっと本格的に人間の意図を理解するようになった。中興通訊(ZTE)が最近発表したNebula-GUI小モデルは、AIエージェントをスマホオペレーティングシステムに深く統合し、努比アZ70Ultra、Z80Ultraなどのエクスクルーシブモデルを「パーソナルなアシスタント」として進化させた。アプリを起動する必要はなく、例えば「明日午後に上海に行く新幹線の切符を予約して」とか「美味しいモードでこのケーキの写真を撮って」といった音声指示で、スマホはアプリを跨いでフルプロセスを自動的に行う。

この機能の裏には、中興がオフライン端末AIエージェント分野での大きな進展がある。最新の評価では、わずか70億パラメータのNebula-GUIが権威あるオフラインスマートフォンGUIエージェントテストで銀賞を獲得し、総合得点は84.38と高く、自動チケット予約や食事注文など複雑なタスクにおいて、操作速度と正確性が同様のソリューションよりも優れている。さらに重要なのは、インターネット接続が必要ないことで、すべての推論はデバイス内で行われるため、応答速度とユーザーのプライバシーが両立されている。

image.png

現在、Nebula-GUIは30以上の主要なアプリをカバーしており、12306、メイド、高徳、微信、支付宝などが含まれ、一般的なシーンでの平均タスク完了正確率は90%を超えている。ユーザーはアプリの切り替えやフォーム入力、階層メニューのクリックを行う必要がなくなった。複雑な操作は一度の自然言語インタラクションに圧縮される。

中国語GUIデータのボトルネックを突破し、自前のエンドツーエンドトレーニングシステムを構築

この体験を実現する最大の課題は、高品質な中国語グラフィカルユーザーインターフェース(GUI)データが極めて少ないことである。そのため、中興は自前でエンドツーエンドのデータ準備システムを開発し、自動スクリーンショット収集、意味的なラベリング、合成指示生成を通じて数千種類の操作経路をカバーするトレーニングループを構築した。このシステムはデータラベリングの効率と一貫性を大幅に向上させ、同時に製造コストを大きく削減し、モデルトレーニングの堅固な基礎を提供している。

その上で、チームは監督微調整(SFT)技術を用いて、汎用マルチモーダル大規模モデルを「認識-理解-実行」の閉ループ能力を持つGUIエージェントに変換した。これは画面要素を認識できるだけでなく、ユーザーの意図を理解し、操作経路を計画し、システム権限を呼び出し、実行中に動的に修正を行い、現実的な状況での耐障害性を確保することができる。

研究室から商業化へ、次世代のスマートフォンインタラクションを定義

Nebula-GUIの商業化は、スマートフォンAIアシスタントが「音声質問」から「アクティブな実行」への新たな段階へと進んでいることを示している。中興は、今後買い物価格比較、旅行計画、複数アプリ間の情報抽出などのより複雑なシーンに拡張し、「小さな秘書」の実用性をさらに強化する予定である。

現在、端末側AIは業界の共通認識となっている中、中興はNebula-GUIにより、本当の知能はクラウドではなく、ユーザーの指先にあることを証明した。スマホがあなたが話すことを理解するだけでなく、あなたに代わって動作するようになると、人間と機械のインタラクションの境界は再び書き換えられることになる。