グーグルGemini Embedding 2が大規模リリース！初のフルマルチモーダル埋め込みモデル登場

グーグルは2026年3月10日頃に、Gemini Embedding2を正式リリースします。これは、Geminiアーキテクチャに基づいた初の完全なマルチモーダル埋め込みモデルです。現在、Gemini APIとVertex AIでPublic Previewが公開されており、開発者はすぐに呼び出して体験できます。

統一された埋め込み空間、モダリティの壁を打ち破る

Gemini Embedding2の核心的なイノベーションは、テキスト、画像、動画、音声、ドキュメント（PDF）などのさまざまなデータタイプを、同じ統一された埋め込みベクトル空間にマッピングすることです。この設計により、モダリティを超えた検索と分類が完全に実現され、100種類以上の言語をサポートし、異なるモダリティのデータが「同じ言語」を話すようにしました。

混合入力機能、セマンティックな関連性を正確に捉える

モデルは元から混合モーダル入力をサポートしており、例えば画像＋テキストや動画＋音声など、複雑な組み合わせを同時に送信できます。システムは、単なる並列処理ではなく、異なるメディア間のセマンティックな関連性を深く理解することができ、マルチメディアコンテンツの理解に質的飛躍をもたらします。

音声のネイティブ処理、ASR変換不要

もう一つの大きな進歩は、音声の直接埋め込み機能です。ユーザーは、音声認識（ASR）を経由せずに、元の音声ファイルを直接入力できます。これにより、高品質な埋め込みベクトルが出力されます。これは、マルチモーダルデータの処理プロセスを大幅に簡略化し、遅延と計算コストを顕著に削減します。

多様なシナリオでの展開、RAGに新たな時代をもたらす

統一されたアーキテクチャと強力な跨モーダル能力により、Gemini Embedding2はRAG検索強化生成、セマンティック検索、感情分析、コンテンツクラスタリング、法的証拠検索など、幅広いシナリオに応用できます。AIbase編集部は、このモデルのリリースが企業がマルチモーダルAIアプリケーションを構築する際の障壁を顕著に低下させ、AIが「テキスト時代」から「全感覚時代」へと全面的に移行することを促進すると考えています。

ギミーが五角大楼に進出：グーグルのAIエージェントが米国防省の300万人の従業員をカバー

グーグルは米国防省の300万人以上の職員にギミーAIを導入し、これは主流のAI技術が米国防システムに正式に入り込んだことを示しています。現在このツールは非機密ネットワークでのみ使用可能で、今後機密システムへの拡張は検討中です。

Google 検索の変化！Canvasが米国で正式に公開テストへ：検索結果をアプリに1クリックで変換、百万トークン窓口でChatGPTと直接対決

Googleが全米ユーザー向けにAI機能「Canvas」を正式公開。検索サービスが「総合創作プラットフォーム」へ転換。情報整理、プロジェクト計画、研究支援が可能で、文書作成から学習ノートや実行可能アプリの生成まで対応。....

グーグル検索が全米ユーザー向けにGemini Canvas AIモードを開始

Googleが米国英語ユーザー向けにGemini Canvas AIモードを全面開放。検索機能を共同創作スペースに進化させ、プロジェクト計画やコード生成などの複雑なタスクに対応。ツールメニューから直接アクセス可能で、ウェブとGoogleリソースを統合。....

Siriの心臓はグーグルへ？アップルのAI戦略の大転換：プライベートクラウドの計算能力が不足、M2 UltraではGeminiの担い手になれない

アップルは自社開発したM2 Ultraチップの性能不足により、次の世代のAI版Siriを支援することができず、クラウド戦略を再評価しており、グーグルに計算能力の支援を求める可能性がある。これにより、プライバシーフェンス戦略が脅かされている。

Google NotebookLM のインフォグラフィックカスタムスタイル機能が正式リリース