グーグルは今日、人工知能エコシステムを大幅にアップグレードし、ネイティブな「コンピュータの使用」ツールをGemini3.5Flashモデルに直接統合しました。これは以前のGemini2.5テストフレームワークを全面的に置き換えるものです。この取り組みは、人工知能が単なる「対話者」から実際の実行能力を持つ「デジタル同僚」へと急速に進化していることを示しており、AIエージェント(Agent)が概念から実用化に向かっていることを意味しています。
Gemini APIを通じて、開発者はGemini3.5Flashのネイティブな機能を利用してスマートエージェントを構築できます。これらのエージェントは複雑な下位コードの記述に依存せず、人間ユーザーのようにスクリーンショットなどの視覚情報を受け取って理解し、アプリケーションを直感的にナビゲートして、さまざまな複雑なデスクトップタスクを自動的に実行します。
これはオフィス自動化、ソフトウェアテストおよびクロスプラットフォームデータ処理などの場面で大きな潜在力を示しており、ウェブサイトの自動ブラウジング、長いフォームの自動入力、インターフェースボタンのクリック、そしてデスクトップ、モバイル、ブラウザ環境における繰り返しのデータ収集作業の効率的な処理が可能です。このエコシステム構築を加速するために、グーグルはBrowserbaseにリアルタイムのデモンストレーションスペースを開設し、開発者がGemini企業エージェントプラットフォームの関連機能をすぐにテストできるようにしています。

AIにマウスやキーボードの制御権を与えることによる潜在的なセキュリティ上の課題、例えば間接的な指示の注入リスクに対して、グーグルは特化した逆襲訓練によってモデルの防御能力を強化していると強調しています。同時に、グーグルは2つのエンタープライズ向けセキュリティシステムを発表しました。一つ目は企業がソフトウェアを設定し、AIが敏感または永続的な変更操作を行う前に明確な人間の承認を得る必要があるようにするものであり、二つ目は潜在的な攻撃を検出すると即座に実行中のタスクを自動的に凍結するもので、多角的な観点からユーザーのデスクトップセキュリティを保障しています。
このモデルのアップグレードに合わせて、グーグルは同じ日にChrome149安定版をリリースしました。このバージョンでは、「画面から選択」という実用的な機能が導入され、ユーザーはブラウザの添付ファイルメニューで有効化でき、現在のタブ内の任意の画像やテキストをドラッグ&ドロップして選択し、瞬時にGeminiのプロンプトとして追加することができます。これにより、ウェブコンテンツに基づくインタラクティブな質問の利便性が大幅に向上しました。
グーグルがネイティブなコンピュータ使用ツールをGemini3.5Flashに統合したことは、そのAIモデルとオペレーティングシステムとの結合を深めることになるだけでなく、AI業界が大規模なモデルパラメータの規模を追求するのではなく、実際に使えるツールとタスク実行能力を追求する方向へと転換していることを示しています。このトレンドは、企業向けの自動化や消費者サービスにおけるAIエージェントの普及を加速させ、人機対話およびソフトウェア応用の形態を再構築し、より高度な自律的なAIエージェントを可能にするでしょう。
