谷歌搜索 AI 概覽準確率僅 90%，易受虛假信息影響

《紐約時報》近日報道，谷歌的 AI 概覽（AI Overviews）準確率約爲 90%。這一數據的背後是每年超過 5 萬億次的搜索量，意味着每小時可能會生成超過 5700 萬條錯誤答案，平均每分鐘接近 100 萬條錯誤信息。

初創公司 Oumi 對谷歌搜索進行評估，採用 SimpleQA 基準分析了 4326 次搜索結果。結果顯示，谷歌的 Gemini 2 在去年 10 月的準確率爲 85%，而到今年 2 月，Gemini 3 這一數字提升至 91%。然而，Oumi 的評估方法主要依賴於 AI 工具，這可能導致數據偏差。此外，谷歌對同一搜索查詢可能生成不同的概覽，增加了結果的不確定性。

具體來看，AI 概覽與原始信息來源不符的比例已從 Gemini 2 的 37% 上升至 Gemini 3 的 56%。這意味着用戶在看到某些概覽時，往往會發現與之不符的鏈接或者準確的概覽中卻引用了錯誤的信息。有記者甚至發佈虛假博客後，谷歌在次日的概覽中引用了相關內容，顯示出 AI 概覽容易被操縱。

此外，用戶斯蒂芬・潘瓦西在搜索摔跤手胡克・霍根（Hulk Hogan）的死訊時，AI 概覽明確表示 “沒有可信報告顯示霍根已去世”，但頁面下方卻出現了 “霍根之死謎團加深” 的文章標題。這一自相矛盾的現象引發了用戶對 AI 生成內容的可靠性質疑。

面對這些問題，谷歌發言人對 Oumi 的測試方法提出了質疑，認爲其評估並未能真實反映搜索行爲。

劃重點：
🔍 AI 概覽的準確率約爲 90%，每小時可能產生 5700 萬條錯誤答案。
📈 Gemini 3 的準確率提升至 91%，但與原始信息不符的比例已升至 56%。
🤖 AI 概覽易受虛假信息影響，用戶對其可靠性產生質疑。

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

NVIDIA推出Nemotron3Embed嵌入向量模型系列，專爲生產級RAG、智能體檢索、代碼檢索和記憶場景設計。8B版本在RTEB基準測試中排名第一，成爲性能最強的開源嵌入模型。系列包含三個開放檢查點：精度優先的Nemotron-3-Embed-8B-BF16、輕量化的1B-BF16版，以及針對Blackwell架構優化的1B-NVFP4四比特版本，所有模型均採用雙向注意力機制。

谷歌搜索 AI 概覽準確率僅 90%，易受虛假信息影響

相關推薦

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

銀河通用機器人創始人王鶴： 2028 年，具身智能的 “ChatGPT 時刻” 即將來臨！

超低延遲 AI 對話神器！Wan-Streamer v0.2 讓你與 AI 零距離溝通

文遠知行推出物理 AI 大模型 WITT

百度沈抖：每位員工每月發 1000 元額度自由體驗主流大模型，強制推行AI辦公難見效

​谷歌搜索 AI 概覽準確率僅 90%，易受虛假信息影響

相關推薦

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

銀河通用機器人創始人王鶴： 2028 年，具身智能的 “ChatGPT 時刻” 即將來臨！

超低延遲 AI 對話神器！Wan-Streamer v0.2 讓你與 AI 零距離溝通

文遠知行推出物理 AI 大模型 WITT

百度沈抖：每位員工每月發 1000 元額度自由體驗主流大模型，強制推行AI辦公難見效

谷歌搜索 AI 概覽準確率僅 90%，易受虛假信息影響