最近,一項引人關注的研究表明,大語言模型(LLM)在持續接觸低質量數據後,會出現類似於人類的 “腦損傷” 現象,導致推理和記憶能力顯著下降。研究者發現,AI 模型在接受高流行但低價值的社交媒體數據(如 Twitter)訓練後,推理能力下降了23%,長上下文記憶能力下降了30%。而更令人擔憂的是,這種損傷是不可逆的,即使在後續用高質量數據進行訓練,模型也無法完全恢復到初始狀態。

問卷調查,數據報告

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

這項研究由一組 AI 研究者進行,他們對低質量數據進行了詳細定義,並與高質量數據進行對比。他們將低質量數據歸類爲 “短文本、高熱度” 的內容,特別是那些包含標題黨和流行語的社交媒體帖子。研究表明,AI 模型接觸這些低質量數據後,除了認知能力下降外,其人格特徵也受到影響,表現出更多的自戀和精神病態特質。

研究團隊選擇了四個不同的大語言模型進行訓練,分別讓它們接受這兩類數據。研究過程中,模型的核心能力通過多種維度進行評估,包括推理能力、記憶能力和道德規範的遵循。結果顯示,“垃圾進垃圾出” 的原則確實適用於大語言模型,這一發現對未來的 AI 數據訓練提出了新的警示。

研究人員認爲,行業在訓練 AI 時,必須關注數據的質量,避免低質量數據帶來的潛在風險。此外,他們還建議在部署大模型時,應進行認知能力的基準測試,以確保 AI 不因長期接觸低質量數據而導致能力退化。

劃重點:

🧠 AI 模型在接觸低質量數據後,推理和記憶能力顯著下降,且損傷不可逆。  

📉 接觸低質量數據後,AI 模型表現出更多自戀和精神病態特質。  

🔍 研究提醒,訓練 AI 時要重視數據質量,並進行認知能力測試。