根據最新報道,來自英國政府 AI 安全研究所和多所知名大學的計算機科學家們發現,當前用於評估新一代人工智能(AI)模型安全性和有效性的測試存在廣泛的缺陷。這項研究分析了超過440個基準測試,發現幾乎所有的測試在某個方面都有弱點,這些弱點可能會影響到最終結論的有效性。

圖源備註:圖片由AI生成
研究的主要作者、牛津互聯網研究所的研究員安德魯・比恩(Andrew Bean)表示,這些基準測試是檢查新發布 AI 模型安全性和是否符合人類利益的重要工具。然而,由於缺乏統一的標準和可靠的測量方法,很難判斷這些模型是否真正取得了進展,或者只是表面上看起來在進步。
在目前英國和美國尚未出臺全國性 AI 監管法規的背景下,基準測試成了技術公司推出新 AI 時的安全網。近期,一些公司因其 AI 模型造成的危害而不得不收回或收緊其產品。例如,谷歌最近撤回了一款名爲 Gemma 的 AI,因爲該模型虛構了關於一位美國參議員的不實指控,這引發了廣泛的爭議。
谷歌表示,Gemma 模型是爲 AI 開發者和研究人員設計的,而不是供普通消費者使用,並在得知非開發者嘗試使用後將其撤回。研究還發現,許多基準測試並未使用不確定性估計或統計測試,僅有16% 的測試具備這樣的措施。此外,在評估 AI 的 “無害性” 等特徵時,相關定義往往存在爭議或模糊,進一步降低了基準測試的實用性。
該研究呼籲建立共享標準和最佳實踐,以提升 AI 安全性和有效性的評估能力。
劃重點:
🔍 近440個 AI 安全測試發現幾乎所有都有缺陷,影響結論有效性。
🚫 谷歌因 Gemma 模型引發虛假指控事件,撤回該 AI。
📊 僅16% 的測試使用統計方法,亟需建立共享標準與最佳實踐。
