這是計算機科學史上註定被載入史冊的時刻。英國數學家、計算機科學之父艾倫·圖靈在1950年提出的偉大設想,在誕生76年後終於迎來了確鑿的實證數據。

最新一期《美國國家科學院院刊》(PNAS)刊登了加州大學聖地亞哥分校(UCSD)的一項顛覆性研究。由認知科學專家卡梅倫·瓊斯(Cameron Jones)和本·伯根(Ben Bergen)教授聯合撰寫的論文表明:在嚴格的經典三方圖靈測試框架下,現代頂尖大語言模型已被證實能夠成功通過測試。更令人震驚的是,在特定條件下,AI 被誤認爲是真實人類的頻率,甚至超越了真正的人類自己。

image.png

核心硬核數據:

  • 封神登頂: 賦予特定人格提示後,GPT-4.5在73% 的情況下被判定爲人類,勝率顯著超越了與其同臺競技的真人志願者。

  • 平分秋色: 開源旗艦 LLaMa-3.1-405B 拿下了56% 的勝率,在統計學上與真實人類表現出無法區分的同等水平。

  • 提示詞定乾坤: 失去精心設計的“人格提示詞”後,GPT-4.5勝率暴跌至36%,LLaMa-3.1降至38%。AI 的僞裝能力目前仍依賴人類的高級指令。

  • 基線慘敗:1960年代的規則機器人 ELIZA(23%)與缺乏針對性提示的 GPT-4o(21%)在長對話中迅速露餡。

“說謊的遊戲”:智商不再是標準,情商與缺陷纔是僞裝的核心

在這場由近500名評判員(包含 UCSD 本科生及網絡招募志願者)參與的雙盲隨機對照實驗中,評判員需要通過5到15分鐘的即時文本對話,在一真一假兩個對象中揪出誰纔是機器。

然而結果出乎所有人的預料。過去我們認爲 AI 通過圖靈測試要靠“無所不知的計算能力”,但這項研究揭示了一個扎心的現實:大模型之所以能把人類騙過去,恰恰是因爲它們學會了“像人類一樣掉鏈子”。

image.png

[無提示狀態:知識面過廣、絕對理性] ──► 人類裁判:這絕對是AI!

正如通訊作者卡梅倫·瓊斯所言,只要給定恰當的提示,先進的大語言模型就能精準模擬出人類的聊天語氣、直接性、幽默感以及易錯性(犯錯和說錯話的傾向)。它們贏下比賽,靠的不是展示數學和邏輯層面的高智商,而是展現出了幾近完美的社會行爲特徵。

圖靈測試的重新定義:從“衡量智能”到“衡量像人”

研究合著者本·伯根教授指出,這場實驗逼着整個科學界重新審視圖靈測試的本質。在誕生之初,圖靈測試是爲了試探機器能否在智能上匹敵人類。但到了2026年的今天,AI 在各行各業的回答速度和準確率早已把人類遠遠甩在身後,單純比拼“腦力”已經失去了意義。

現在的圖靈測試,與其說是在測試‘智能’,不如說是在測試‘像人’的程度。而這場遊戲本質上就是一場關於說謊的比賽。AI 已經證明了自己是一個極其完美的說謊者。

一旦大模型可以在長達15分鐘的自由對話中成功僞裝且不露破綻,這就意味着網絡世界長期賴以生存的信任鏈條將徹底斷裂。

繁榮背後的陰影:“反洗錢”式的網絡身份清算即將來臨

當欺騙變得如此廉價和高效,現實世界的社會風險正成倍放大。伯根教授對此表達了深切的擔憂。這種能夠完美僞裝成人類的 AI 技術,極易被不法分子、政治團體或激進的商業公司惡意利用。

在線上社交或客服場景中,用戶可能在毫不知情的情況下,被一個披着人類外衣的聊天機器人說服,從而泄露自己的社會保障號等隱私信息、更改自己的政治投票意向,或者衝動消費購買某款產品。

針對這一歷史性的科學實證,研究團隊也正式向社會發出警示:未來在線上與陌生人互動時,人們必須大幅降低“自己能100%分辨真人與機器人”的迷之自信。爲了應對日益倒退的網絡信任生態,更嚴苛的數字身份驗證與 AI 生成內容防僞機制,必須以更快的速度提上日程。