谷歌於2026年3月10日前後正式推出Gemini Embedding2,這是其首款基於Gemini架構的完全多模態嵌入模型。目前已在Gemini API和Vertex AI上開放Public Preview,開發者可立即調用體驗。

統一嵌入空間,打破模態壁壘  

Gemini Embedding2的核心創新在於,將文本、圖片、視頻、音頻和文檔(PDF)等多種數據類型映射到同一個統一的嵌入向量空間中。這一設計徹底實現了跨模態檢索與分類,支持超過100種語言,真正讓不同模態數據“說同一種語言”。

QQ20260311-085434.png

混合輸入能力,精準捕捉語義關聯  

模型原生支持混合模態輸入,例如同時傳入圖片+文字、視頻+音頻等複雜組合。系統能夠深度理解不同媒體之間的語義關聯,而非簡單並列處理,爲多媒體內容理解帶來質的飛躍。

音頻原生處理,無需ASR轉錄  

另一大突破是音頻直接嵌入功能。用戶可直接輸入原始音頻文件,模型無需先進行語音轉文本(ASR),即可輸出高質量嵌入向量。這不僅大幅簡化了多模態數據處理流程,還顯著降低了延遲和計算成本。

多場景落地,RAG迎來新紀元  

憑藉統一架構和強大跨模態能力,Gemini Embedding2可廣泛應用於RAG檢索增強生成、語義搜索、情感分析、內容聚類、法律證據檢索等場景。AIbase編輯認爲,這一模型的發佈將顯著降低企業構建多模態AI應用的門檻,推動AI從“文本時代”全面邁向“全感知時代”。