グーグルは木曜日に、最新の基本モデルGemini3Proを基盤とした「リデザイン」版のGemini Deep Research研究エージェントを公開しました。この新しいスマートエージェントは、レポートの生成というコアな機能を保持しているだけでなく、新たに導入されたインタラクティブAPIにより、開発者がグーグルのSATAモデルの研究機能を自社アプリケーションに埋め込むことが初めて可能となりました。これにより、AIエージェント時代における開発者にさらに大きな制御力を提供します。

機能の向上と広範な応用
このスマートエージェントは膨大な情報を統合し、提示されたプロンプト内の大量の文脈データを処理できます。グーグルによると、このツールを使用して実行されるタスクの範囲は非常に広く、企業の買収調査から薬物の毒性安全性に関する研究まで含まれており、専門分野での実用性を示しています。
また、グーグルはこの深層研究エージェントを同社の主要なサービスに統合することを発表しました。具体的には、グーグル検索、グーグルファイナンス、Geminiアプリ、そして人気の高いNotebookLMが対象です。この取り組みは、AIエージェントが人間の代わりに検索タスクを遂行する未来のビジョンに向かって進んでいることを示しています。
技術的突破:AIの幻覚への対応
グーグルは、Deep ResearchがGemini3Proという「最も正確な」モデルの恩恵を受けていることを強調しています。このモデルは複雑なタスクを実行する際に幻覚現象を最小限に抑えるように特別に訓練されています。AIの幻覚とは、大規模言語モデルが情報を勝手に作り出す現象であり、数分、数時間、あるいはそれ以上の時間をかけて多くの自主的な決定を行う長時間の深層推論タスクにおいて特に重要な問題です。一つの幻覚的な選択肢でも、全体の出力結果を無効にしてしまう可能性があります。
ベンチマークテストの結果
技術的な進歩を証明するために、グーグルはDeepSearchQAという新しいベンチマークテストを作成し、オープンソースとして公開しました。これは、複雑なステップバイステップ情報検索タスクにおけるエージェントのパフォーマンスをテストするためのものです。また、グーグルは「ヒューマニティーズ・ラスト・エキスム・ディープ・リサーチ(Humanity's Last Exam)」という一般的な知識を検証するベンチマークテストおよびブラウザベースのエージェントタスクベンチマークであるBrowserCompもテストしました。
テスト結果によると、グーグルの新しいエージェントは自社のベンチマークテストおよびHumanityベンチマークテストで競合を上回りました。ただし、OpenAIのChatGPT5Proは驚くべき性能を発揮し、すべてのテスト項目でそのあとを追う形となり、BrowserCompテストではわずかに優れました。
市場競争の激化
しかし、これらの比較はすぐに古くなりてしまいました。同じ日のうちに、OpenAIは待ちわびられていたGPT5.2(通称Garlic)を発表したのです。OpenAIは、その最新モデルが一連の典型的なベンチマークテストにおいて競合を上回っていることを明らかにし、特にグーグルを含む競合を凌駕していると述べています。
