グーグルは最近、軽量モデルのGemini3Flashに「Agentic Vision(エージェントビジョン)」という画期的な機能を追加しました。このアップデートにより、従来のAIビジョンモデルが「一瞬で推測する」にとどまっていた制約が打破され、AIが人間の専門家のように、能動的な探求と深い論理的思考を通じて画像を分析できるようになりました。

過去には、情報が密集した画像(遠くの看板や複雑な回路図、小さな文字など)に対して、AIが一度に全体の情報を処理するしかなかったため、細部が見逃されることがありました。しかしAgentic Visionでは、「考える」「実行する」「観察する」というサイクルメカニズムが導入されています。簡単に言うと、ユーザーが複雑な視覚的な質問を提示すると、Gemini3はまず分析計画を立て、その後Pythonコードを自動生成・実行し、画像を局所的に切り抜いたり回転させたり、ラベル付けしたりします。そして、これらの高解像度の詳細に基づいて最終的な答えを出します。
このような「調査員のような」作業スタイルにより、Geminiは高度な視覚タスクにおける正確性が5%から10%向上しました。これは単にピクセルを識別するだけではなく、必要に応じて「ズームイン」して証拠を探し出す能力を学んだからです。
現在、この機能はGemini AI StudioとVertex AIプラットフォームで先行してリリースされており、開発者は「コード実行」機能を有効にするだけで呼び出すことができます。グーグルは今後、この機能を「Thinkingモード」を通じて一般ユーザーにも開放する予定であり、モバイル端末のAIアシスタントでもこの深い視覚的推論能力を持つようになるとしています。
ポイント:
👁️ グーグルがAgentic Vision技術を発表。視覚的推論とPythonコード実行を組み合わせ、従来の静的な画像認識モードを脱却。
🔍 「サイクル分析」メカニズムを導入。AIが画像を切り抜き、拡大、ラベリングすることができ、複雑な細部の認識精度を大幅に向上。
🛠️ この機能はAPI経由で開発者に公開され、今後Geminiアプリの「Thinkingモード」に統合され、一般ユーザーにも提供される予定。
