近日,谷歌正式推出其全新的 Gemini API URL Context 功能,旨在讓 AI 在瀏覽網頁時有如人類一般的理解能力。這一功能於5月28日在 Google AI Studio 上線,標誌着谷歌在 AI 技術領域的又一次重大突破。

image.png

與我們常用的鏈接分享不同,URL Context 功能的運作方式截然不同。通常情況下,當我們將鏈接丟給 AI 時,它往往只是通過簡單的瀏覽器工具或搜索引擎插件來讀取網頁內容,而這種方式常常只能獲取到網頁的摘要或部分信息。然而,Gemini 的 URL Context 則是專爲開發者設計的 API,可以精準解析和理解網頁中的所有內容,甚至可以處理 PDF、圖片等多種格式的信息。

image.png

具體來說,URL Context 功能能夠處理高達34MB 的網頁內容,支持多種文件格式,包括 HTML、JSON 和 CSV 等。谷歌產品負責人 Logan Kilpatrick 表示,這項功能極大地簡化了開發者的工作流程,使其能夠在幾行代碼中實現深度的信息提取與處理。與傳統的 “檢索 - 增強生成”(RAG)流程相比,URL Context 減少了繁瑣的步驟,不再需要額外的內容提取、向量存儲和檢索機制。

這一功能的能力相當強大。通過一個簡單的 URL,Gemini 可以提取特斯拉財報中的關鍵數據,如 “總資產” 和 “總負債”,而這些信息往往無法通過傳統方式獲取。此外,它還能夠識別 PDF 中的複雜結構,包括表格和腳註等。這使得開發者能夠更快速、準確地獲得所需信息,極大提高了工作效率。

不過,URL Context 也有其侷限性。它無法突破付費牆,對於需要登錄才能訪問的內容無能爲力。此外,它對專用工具(如 YouTube 視頻和 Google Docs 等)也不會進行處理。內容的處理費用是按照 Token 數量計費,因此開發者需要合理設計信息源,以控制成本。

URL Context 功能不僅展示了 AI 技術的前沿發展趨勢,也讓我們對未來的信息檢索方式有了新的認識。

文章地址:https://towardsdatascience.com/googles-url-context-grounding-another-nail-in-rags-coffin/