圖靈測試塵埃落定：GPT-4. 5 勝率超真人，AI學會了完美撒謊

這是計算機科學史上註定被載入史冊的時刻。英國數學家、計算機科學之父艾倫·圖靈在1950年提出的偉大設想，在誕生76年後終於迎來了確鑿的實證數據。

最新一期《美國國家科學院院刊》（PNAS）刊登了加州大學聖地亞哥分校(UCSD)的一項顛覆性研究。由認知科學專家卡梅倫·瓊斯(Cameron Jones)和本·伯根(Ben Bergen)教授聯合撰寫的論文表明:在嚴格的經典三方圖靈測試框架下，現代頂尖大語言模型已被證實能夠成功通過測試。更令人震驚的是，在特定條件下，AI 被誤認爲是真實人類的頻率，甚至超越了真正的人類自己。

核心硬核數據:
封神登頂: 賦予特定人格提示後，GPT-4.5在73% 的情況下被判定爲人類，勝率顯著超越了與其同臺競技的真人志願者。
平分秋色: 開源旗艦 LLaMa-3.1-405B 拿下了56% 的勝率，在統計學上與真實人類表現出無法區分的同等水平。
提示詞定乾坤: 失去精心設計的“人格提示詞”後，GPT-4.5勝率暴跌至36%，LLaMa-3.1降至38%。AI 的僞裝能力目前仍依賴人類的高級指令。
基線慘敗:1960年代的規則機器人 ELIZA（23%）與缺乏針對性提示的 GPT-4o(21%)在長對話中迅速露餡。

“說謊的遊戲”:智商不再是標準，情商與缺陷纔是僞裝的核心

在這場由近500名評判員（包含 UCSD 本科生及網絡招募志願者）參與的雙盲隨機對照實驗中，評判員需要通過5到15分鐘的即時文本對話，在一真一假兩個對象中揪出誰纔是機器。

然而結果出乎所有人的預料。過去我們認爲 AI 通過圖靈測試要靠“無所不知的計算能力”，但這項研究揭示了一個扎心的現實:大模型之所以能把人類騙過去，恰恰是因爲它們學會了“像人類一樣掉鏈子”。

[無提示狀態:知識面過廣、絕對理性] ──► 人類裁判:這絕對是AI!

正如通訊作者卡梅倫·瓊斯所言，只要給定恰當的提示，先進的大語言模型就能精準模擬出人類的聊天語氣、直接性、幽默感以及易錯性（犯錯和說錯話的傾向）。它們贏下比賽，靠的不是展示數學和邏輯層面的高智商，而是展現出了幾近完美的社會行爲特徵。

圖靈測試的重新定義:從“衡量智能”到“衡量像人”

研究合著者本·伯根教授指出，這場實驗逼着整個科學界重新審視圖靈測試的本質。在誕生之初，圖靈測試是爲了試探機器能否在智能上匹敵人類。但到了2026年的今天，AI 在各行各業的回答速度和準確率早已把人類遠遠甩在身後，單純比拼“腦力”已經失去了意義。

現在的圖靈測試，與其說是在測試‘智能’，不如說是在測試‘像人’的程度。而這場遊戲本質上就是一場關於說謊的比賽。AI 已經證明了自己是一個極其完美的說謊者。

一旦大模型可以在長達15分鐘的自由對話中成功僞裝且不露破綻，這就意味着網絡世界長期賴以生存的信任鏈條將徹底斷裂。

繁榮背後的陰影:“反洗錢”式的網絡身份清算即將來臨

當欺騙變得如此廉價和高效，現實世界的社會風險正成倍放大。伯根教授對此表達了深切的擔憂。這種能夠完美僞裝成人類的 AI 技術，極易被不法分子、政治團體或激進的商業公司惡意利用。

在線上社交或客服場景中，用戶可能在毫不知情的情況下，被一個披着人類外衣的聊天機器人說服，從而泄露自己的社會保障號等隱私信息、更改自己的政治投票意向，或者衝動消費購買某款產品。

針對這一歷史性的科學實證，研究團隊也正式向社會發出警示:未來在線上與陌生人互動時，人們必須大幅降低“自己能100%分辨真人與機器人”的迷之自信。爲了應對日益倒退的網絡信任生態，更嚴苛的數字身份驗證與 AI 生成內容防僞機制，必須以更快的速度提上日程。

圖靈測試塵埃落定：GPT-4. 5 勝率超真人，AI學會了完美撒謊

“說謊的遊戲”:智商不再是標準，情商與缺陷纔是僞裝的核心

圖靈測試的重新定義:從“衡量智能”到“衡量像人”

繁榮背後的陰影:“反洗錢”式的網絡身份清算即將來臨

相關推薦

Steam玩家對AI沒那麼抗拒：43%表示可以接受，僅8%絕對不碰

美國企業“棄用”頭部AI：中國模型憑藉高性價比突圍

具身智能新突破：螞蟻集團開源LingBot-Vision，讓機器人擁有“空間感”

Anthropic紐約大擴軍：租賃曼哈頓 16 層辦公樓，員工規模翻番至 1000 人

告別雲端焦慮：本地優先的桌面 AI 助手 Rowboat 如何重塑你的工作臺？