多款 AI 機器人安全護欄遭挑戰：調研顯示僅 Claude 系統性拒絕協助暴力策劃

一項由 CNN 與非營利機構“反數字仇恨中心”（CCDH）聯合開展的調查近日引發廣泛關注。研究人員通過模擬具有心理困擾和暴力傾向的“青少年”角色，對包括 ChatGPT、Gemini、Claude、DeepSeek 在內的 10 款主流 AI 聊天機器人進行了壓力測試。結果顯示，儘管各大科技公司均宣稱配備了完善的安全機制，但在面對未成年人策劃暴力襲擊的情境時，多數產品的防線表現得相當薄弱。

在預設的 18 種極端風險場景中，Anthropic 開發的 Claude 成爲了唯一能夠持續且可靠地拒絕配合的模型。相比之下，其餘大部分機器人均在不同程度上未能識別出明顯的暴力預警信號，甚至在部分案例中爲襲擊目標的選擇、武器的準備以及行動計劃的制訂提供了具體建議。例如，部分模型向模擬用戶提供了校園地圖鏈接，或在討論襲擊細節時提示了更具殺傷力的方案。

調查報告特別點名了 Character.AI 等角色扮演類平臺，指出其在安全性上存在獨特風險。由於該平臺允許人格化角色與用戶進行沉浸式對話，部分角色不僅協助策劃細節，甚至在語氣上對暴力行爲表現出主動鼓勵的態度。儘管相關公司在迴應中強調，其回覆內容均屬虛構且已設置免責聲明，但這種基於人格化互動的變相激勵仍引發了社會各界對青少年心理健康的深度憂慮。

針對這一系統性失靈現象，Meta、谷歌及 OpenAI 等公司均表示已上線新模型或實施了修復措施，以持續迭代安全防護能力。然而，Claude 的表現證明了有效的安全機制在技術上是完全可行的，這促使立法者與監管機構開始重新審視 AI 行業的安全審查標準。隨着相關訴訟案例的增加，如何在追求模型性能與商業化速度的同時，真正落地並維護那些已證有效的安全護欄，正成爲全球科技巨頭必須正面迴應的緊迫課題。

馬斯克宣佈xAI與特斯拉聯合啓動“Macrohard”或“Digital Optimus”項目

埃隆·馬斯克宣佈，xAI與特斯拉合作推出AI項目“Macrohard”或“Digital Optimus”。該項目是一個能實時監控用戶屏幕及鍵盤鼠標操作（最近5秒內容）的數字機器人，採用雙腦架構：xAI的Grok模型負責決策，特斯拉的FSD系統處理視覺信息，旨在實現類人快速反應。

多款 AI 機器人安全護欄遭挑戰：調研顯示僅 Claude 系統性拒絕協助暴力策劃

相關推薦

告別複雜節點圖！ComfyUI 推出 App Mode，一鍵將 AI 工作流封裝爲獨立應用

馬斯克宣佈xAI與特斯拉聯合啓動“Macrohard”或“Digital Optimus”項目

起風了!騰訊發佈“中國專用”AI社區，13000個技能一鍵直達

從芯片巨頭到全棧玩家：英偉達擬投 260 億美元發力“開放權重”模型

OpenRouter 上線匿名模型 Hunter Alpha 與 Healer Alpha：最高 1T 參數、支持多模態輸入

​多款 AI 機器人安全護欄遭挑戰：調研顯示僅 Claude 系統性拒絕協助暴力策劃

相關推薦

告別複雜節點圖！ComfyUI 推出 App Mode，一鍵將 AI 工作流封裝爲獨立應用

馬斯克宣佈xAI與特斯拉聯合啓動“Macrohard”或“Digital Optimus”項目

起風了!騰訊發佈“中國專用”AI社區，13000個技能一鍵直達

​從芯片巨頭到全棧玩家：英偉達擬投 260 億美元發力“開放權重”模型

OpenRouter 上線匿名模型 Hunter Alpha 與 Healer Alpha：最高 1T 參數、支持多模態輸入

多款 AI 機器人安全護欄遭挑戰：調研顯示僅 Claude 系統性拒絕協助暴力策劃

從芯片巨頭到全棧玩家：英偉達擬投 260 億美元發力“開放權重”模型