グーグル Gemini 3 Flashのアップグレード：新機能「Agentic Vision」でAIが専門家のように画像を深く見る

グーグルは最近、軽量モデルのGemini3Flashに「Agentic Vision（エージェントビジョン）」という画期的な機能を追加しました。このアップデートにより、従来のAIビジョンモデルが「一瞬で推測する」にとどまっていた制約が打破され、AIが人間の専門家のように、能動的な探求と深い論理的思考を通じて画像を分析できるようになりました。

過去には、情報が密集した画像（遠くの看板や複雑な回路図、小さな文字など）に対して、AIが一度に全体の情報を処理するしかなかったため、細部が見逃されることがありました。しかしAgentic Visionでは、「考える」「実行する」「観察する」というサイクルメカニズムが導入されています。簡単に言うと、ユーザーが複雑な視覚的な質問を提示すると、Gemini3はまず分析計画を立て、その後Pythonコードを自動生成・実行し、画像を局所的に切り抜いたり回転させたり、ラベル付けしたりします。そして、これらの高解像度の詳細に基づいて最終的な答えを出します。

このような「調査員のような」作業スタイルにより、Geminiは高度な視覚タスクにおける正確性が5%から10%向上しました。これは単にピクセルを識別するだけではなく、必要に応じて「ズームイン」して証拠を探し出す能力を学んだからです。

現在、この機能はGemini AI StudioとVertex AIプラットフォームで先行してリリースされており、開発者は「コード実行」機能を有効にするだけで呼び出すことができます。グーグルは今後、この機能を「Thinkingモード」を通じて一般ユーザーにも開放する予定であり、モバイル端末のAIアシスタントでもこの深い視覚的推論能力を持つようになるとしています。

ポイント:

👁️ グーグルがAgentic Vision技術を発表。視覚的推論とPythonコード実行を組み合わせ、従来の静的な画像認識モードを脱却。
🔍 「サイクル分析」メカニズムを導入。AIが画像を切り抜き、拡大、ラベリングすることができ、複雑な細部の認識精度を大幅に向上。
🛠️ この機能はAPI経由で開発者に公開され、今後Geminiアプリの「Thinkingモード」に統合され、一般ユーザーにも提供される予定。

英国政府が全市民向けAI計画を発表：全成人に無料オンライントレーニングを提供

英国政府が全市民向けの無料AIトレーニングプログラムを開始しました。労働力スキルの向上を目的としており、講義は短く実践重視で、文章作成や創造的なアイデアの生成など実用的な内容をカバーし、学習のハードルを下げています。

チャットボットは偽の動画を識別するのが難しい OpenAIの自社ツールも騙される

AI動画生成技術は急速に発展しているが、主流のAIチャットボットはディープフェイクなコンテンツを識別するのが難しい。研究によると、OpenAIの自社製品であるSoraで作成された偽の動画に対して、ChatGPTの識別誤り率は92.5％に達し、AIがコンテンツの真実性を判断する能力に深刻な欠点が露呈した。

上海市に新規9製品の登録済み生成型AIサービスが追加

上海市ネットワーク情報弁公室は生成型AIの創新と規範を推進し、関連する管理規定に基づき、順序立ててサービス登録を行っています。APIなどの方法で登録済みモデルを呼び出し、世論の属性や社会的動員能力を持つサービスを提供する場合も、関係部門は登録を行います。現在、上海市には新たに9つの登録済みの生成型AIサービスが追加されています。

グーグルが画期的な打撃を仕掛けた：Gemini 3 Flashが無料で公開され、性能はProを上回る？

Googleが軽量フラッグシップモデルGemini3Flashを発表。高速・低コストを特徴とし、前世代製品を置き換え、Google検索AIモードとGeminiアプリのデフォルト基盤エンジンとなる。実測で速度3倍向上、価格大幅削減により、企業・開発者向け高コストパフォーマンス選択肢を提供。....

CohereがRerank4を発表：4倍に拡大されたコンテキストウィンドウにより、企業向け検索の精度が向上