谷歌近日發佈原生多模態嵌入模型 Gemini Embedding2,該模型可將文本、圖像、視頻、音頻以及 PDF 文檔統一映射到同一語義向量空間,旨在簡化複雜的 AI 數據處理流程,並提升多模態檢索與理解能力。這標誌着谷歌在嵌入技術領域從單一文本語義表示邁向統一多模態語義建模的重要一步。

此前在2025年7月,谷歌推出支持100多種語言的文本嵌入模型 gemini-embedding-001,並在 MTEB 多語言排行榜中取得領先成績。此次發佈的 Gemini Embedding2依然基於 Gemini 架構,但能力進一步擴展,可同時處理文本、圖像、視頻、音頻和 PDF 文檔五種模態,並將其映射至統一向量空間,從而使不同媒體內容能夠直接進行語義比較,無需藉助多個模型或額外處理步驟。這一能力對語義搜索、檢索增強生成(RAG)、情感分析和數據聚類等應用具有重要意義。
在輸入能力方面,新模型支持最長8192個文本 token,是前代模型2048token 上限的四倍;每次請求最多可處理6張 PNG 或 JPEG 圖像,視頻時長最高120秒,PDF 文檔最多6頁。值得注意的是,Gemini Embedding2還支持原生音頻處理,無需先進行語音轉文本,這避免了傳統轉錄過程中的信息損失。谷歌同時引入“交錯輸入”技術,允許開發者在單次請求中混合多種模態,例如圖像與文本描述聯合輸入,以更好捕捉不同媒體之間的語義關係。

在架構層面,模型繼續採用 Matryoshka 表示學習(MRL) 技術,通過分層信息結構動態調整向量維度。其默認嵌入維度爲3072,並提供1536和768等可選配置,使開發者能夠在檢索質量與存儲成本之間靈活權衡。
谷歌公佈的基準測試顯示,Gemini Embedding2在文本、圖像、視頻及語音任務中均取得領先表現。例如在文本—視頻檢索任務中,該模型得分達到68.8,高於 Amazon Nova2Multimodal Embeddings 的60.3和 Voyage Multimodal3.5的55.2;在文本—圖像對比任務中,其得分爲93.4,也明顯領先亞馬遜模型的84.0。
目前 Gemini Embedding2已通過 Gemini API 與 Vertex AI 向開發者開放,並支持與 LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB 及 Vector Search 等主流框架和向量數據庫集成。谷歌還提供交互式 Colab 筆記本及輕量級多模態語義搜索演示,幫助開發者快速測試模型能力。

值得注意的是,多模態嵌入領域的競爭正在升溫。今年2月下旬,AI 搜索引擎 Perplexity 發佈了基於 MIT 許可證的開源嵌入模型 pplx-embed-v1 和 pplx-embed-context-v1,雖然僅支持文本,但在 MTEB 檢索基準中,其最大模型性能與阿里巴巴 Qwen3嵌入模型相當,並一度超過谷歌的 gemini-embedding-001,同時具備更高的內存效率。隨着統一多模態語義表示成爲 AI 基礎設施的重要方向,嵌入模型的競爭正從文本檢索逐步擴展至跨媒體理解與數據基礎設施層面。
