《紐約時報》近日報道,谷歌的 AI 概覽(AI Overviews)準確率約爲 90%。這一數據的背後是每年超過 5 萬億次的搜索量,意味着每小時可能會生成超過 5700 萬條錯誤答案,平均每分鐘接近 100 萬條錯誤信息。
初創公司 Oumi 對谷歌搜索進行評估,採用 SimpleQA 基準分析了 4326 次搜索結果。結果顯示,谷歌的 Gemini 2 在去年 10 月的準確率爲 85%,而到今年 2 月,Gemini 3 這一數字提升至 91%。然而,Oumi 的評估方法主要依賴於 AI 工具,這可能導致數據偏差。此外,谷歌對同一搜索查詢可能生成不同的概覽,增加了結果的不確定性。
具體來看,AI 概覽與原始信息來源不符的比例已從 Gemini 2 的 37% 上升至 Gemini 3 的 56%。這意味着用戶在看到某些概覽時,往往會發現與之不符的鏈接或者準確的概覽中卻引用了錯誤的信息。有記者甚至發佈虛假博客後,谷歌在次日的概覽中引用了相關內容,顯示出 AI 概覽容易被操縱。
此外,用戶斯蒂芬・潘瓦西在搜索摔跤手胡克・霍根(Hulk Hogan)的死訊時,AI 概覽明確表示 “沒有可信報告顯示霍根已去世”,但頁面下方卻出現了 “霍根之死謎團加深” 的文章標題。這一自相矛盾的現象引發了用戶對 AI 生成內容的可靠性質疑。
面對這些問題,谷歌發言人對 Oumi 的測試方法提出了質疑,認爲其評估並未能真實反映搜索行爲。
劃重點:
🔍 AI 概覽的準確率約爲 90%,每小時可能產生 5700 萬條錯誤答案。
📈 Gemini 3 的準確率提升至 91%,但與原始信息不符的比例已升至 56%。
🤖 AI 概覽易受虛假信息影響,用戶對其可靠性產生質疑。
