AI訓練數據的“原罪”問題迎來最強法律挑戰。由兩屆普利策獎得主約翰·卡雷魯(John Carreyrou)領銜,數十位知名作家近日向美國加州北區地方法院提起集體訴訟,將OpenAI、谷歌、Meta、Anthropic、xAI與Perplexity AI六大AI公司列爲共同被告,指控其系統性地使用盜版書籍訓練大模型,構成“故意版權侵權”。若罪名成立,每部作品最高可索賠15萬美元,總賠償或達數十億乃至上百億美元。
“雙重盜版鏈條”浮出水面
訴狀揭露,被告公司形成了一條清晰的侵權閉環:
1. 盜版獲取:從LibGen、Z-Library等“影子圖書館”批量下載數百萬冊受版權保護的書籍(包括小說、非虛構作品、學術著作);
2. 模型訓練:將這些非法數據用於訓練ChatGPT、Gemini、Claude等大模型;
3. 商業變現:通過API訂閱、企業服務、廣告等模式獲利,卻未向原作者支付任何報酬。
原告方強調:“作家的文字是AI智慧的基石,卻成了免費燃料。”這些作品不僅賦予模型語言能力,更塑造其“知識深度”與“敘事風格”,是數十億美元AI生態的隱形支柱。
OpenAI成“被訴大戶”,舊金山法院成AI版權案風暴眼
這並非AI公司首次陷入文字版權糾紛,但本案因原告權威性高、被告覆蓋全、侵權鏈條清晰而備受矚目。據南都數字經濟治理研究中心統計,OpenAI已面臨至少14起版權訴訟,是行業“被訴大戶”。而本案審理地——加州北區法院(舊金山)——目前已受理25起AI相關版權案,佔全美同類案件超50%,其判決結果或將確立AI訓練數據合法性的全國性先例。
故意侵權 vs. 合理使用:法律邊界待裁決
被告公司此前多以“合理使用”(Fair Use)抗辯,主張AI訓練屬“轉化性使用”,不損害原作市場。但此次原告聚焦“盜版本質”——若訓練數據本身即非法獲取,則“合理使用”抗辯難以成立。法院若認定“故意侵權”,不僅賠償金額飆升,還可能強制AI公司清洗模型、刪除侵權數據,甚至暫停相關服務。
行業地震:AI訓練數據供應鏈或將重構
無論結果如何,此案已敲響警鐘:
- 頭部AI公司正加速與出版社、作者協會談判授權(如OpenAI與美聯社、Shutterstock合作);
- 開源模型社區面臨合規壓力,需驗證訓練數據合法性;
- “影子圖書館”或成執法重點,數據採集工具鏈將受審查。
AIbase認爲,這場由作家發起的“版權保衛戰”,不僅是對個體權益的捍衛,更是對AI發展倫理的終極拷問:技術創新,是否必須以犧牲創作者爲代價? 當法律開始爲“數據血汗”定價,AI的黃金時代,或將迎來一場深刻的合規革命。
