近日,來自蘇黎世大學、阿姆斯特丹大學、杜克大學和紐約大學的研究團隊發佈了一項最新研究,揭示了大語言模型生成的社交媒體帖子在內容識別方面的不足。研究表明,這些 AI 生成的帖子在各大社交平臺上容易被人類識別,識別準確率達到70% 至80%,遠高於隨機猜測的結果。

圖源備註:圖片由AI生成
研究人員測試了九個不同的大語言模型,包括 Apertus、DeepSeek、Gemma、Llama、Mistral、Qwen 等,分析了它們在 Bluesky、Reddit 和 X 平臺上的表現。結果顯示,這些 AI 生成的內容在 “毒性評分” 上具有顯著差異,這成爲區分 AI 與人類帖子的重要因素。換句話說,如果在某個帖子下出現特別尖銳或搞笑的評論,那麼這很可能是人類用戶所寫。
研究指出,雖然大語言模型可以模仿在線對話的形式,但在捕捉情感表達方面卻顯得捉襟見肘。自發和富有感情的表達是人類社交互動的特點,而 AI 在這方面的表現遠不如人類。此外,研究還發現,在特定情況下,例如在馬斯克的 X 平臺上發表積極情感或在 Reddit 上討論政治,AI 模型的表現尤爲不佳。
從整體來看,參與測試的 AI 模型在模仿 X 平臺的帖子時表現較好,而在 Bluesky 上則稍顯遜色,Reddit 則是三者中最具挑戰性的,因爲該平臺的對話規範更加複雜。同時,研究也發現,某些未經過人類指令微調的 AI 模型表現較好,這說明過度的訓練可能使模型的風格變得過於一致,從而導致內容更加機械化。
通過這項研究,研究人員強調了 AI 在情感表達方面的侷限性,未來在社交媒體的應用中,還需要不斷提升 AI 的情感智能。
劃重點:
🌟 研究顯示,AI 生成的社交媒體內容識別率高達70%-80%。
🤖 大語言模型在情感表達上存在明顯不足,自發情感互動仍是人類特有。
📊 未經過人類指令微調的模型在測試中表現更佳,過度校準訓練可能導致內容機械化。
