Google 日前宣佈對 Gemini API 中的文件搜索功能進行重大升級,旨在爲開發者提供更完善的多模態檢索增強生成(RAG)能力。此次更新不僅打破了傳統文本檢索的侷限,更將 AI 的理解維度擴展到了圖像與複雜文檔的深度整合,標誌着企業級 AI 應用在信息檢索準確性上邁出了關鍵一步。
技術層面上,新版文件搜索功能基於 Gemini Embedding2模型構建。與以往單純依靠文本向量搜索不同,升級後的系統具備統一的多模態嵌入能力,能夠同時識別和處理 PDF、文檔以及各類圖片中的視覺信息。這意味着開發者無需再耗費精力搭建複雜的向量數據庫或文檔切分系統,即可在 Gemini API 內部實現從數據上傳到信息檢索的完整 RAG 工作流。

在實際應用場景中,這一進步解決了傳統 RAG 系統難以處理非文本內容的痛點。以往,文檔中的圖表、設計圖或產品截圖往往成爲 AI 的“盲區”,導致回答缺失關鍵上下文。而現在,Gemini API 能夠原生理解這些視覺元素。例如,當企業上傳包含技術架構圖或銷售趨勢表的 PDF 時,AI 可以結合圖表數據與文字描述給出精準推論,極大提升了客服機器人和文檔分析系統的實用性。
爲了進一步優化大規模知識庫的管理效率,Google 還引入了自定義元數據過濾功能。開發者可以根據部門、時間、分類等維度爲文件添加標籤,在檢索時通過預設條件過濾無關信息,從而確保 AI 輸出的回答更加聚焦。
此外,針對用戶最關心的信息溯源問題,Gemini API 現已支持頁面級引用。AI 在生成答案時,會明確標註信息源自文檔的具體頁碼,而非僅僅指向整個文件。這種透明度的提升,不僅方便用戶快速覈實內容準確性,也爲深度閱讀提供了便利。
目前,這項增強版文件搜索功能已向全球開發者開放。用戶可以通過 Google AI Studio 或 Google Cloud 平臺接入,體驗多模態 RAG 帶來的開發便利與效率提升。
