全球芯片巨頭英偉達(NVIDIA)近期因 AI 模型訓練數據來源問題深陷法律糾紛。一份最新提交給美國加州法院的修正起訴書披露了驚人細節:英偉達被指控爲了在競爭中保持領先,主動與全球知名的盜版電子書站點Anna’s Archive進行接觸,試圖獲取數百萬本受版權保護的書籍。
原告方由 Abdi Nazemian 等多位作家組成,他們聲稱英偉達在面臨2023年開發者大會的交付壓力下,內部戰略團隊成員曾直接詢問Anna’s Archive能提供哪些資源,並表達了將其納入大語言模型(LLM)預訓練數據的意願。指控指出,儘管對方曾明確提醒其館藏屬於非法獲取,英偉達管理層仍在一週內“開綠燈”批准繼續推進,從而獲得了約500TB 的海量數據訪問權。
除了Anna’s Archive,起訴書還提到英偉達可能使用了 LibGen、Sci-Hub 及 Z-Library 等其他“影子圖書館”的數據來源。此外,該公司還被指向企業客戶分發工具,協助其自動獲取包含盜版作品的數據集,因此被指控存在“替代侵權”和“共同侵權”行爲。英偉達此前曾試圖以“合理使用”爲由進行辯解,但隨着這些內部郵件等關鍵證據的流出,案件正向着更有利於版權方的方向發展。
劃重點:
⚖️ 深陷集體訴訟:多位知名作家聯合指控英偉達大規模使用盜版圖書訓練其 NeMo、Megatron 等核心模型。
📑 主動接洽盜版源:內部郵件顯示英偉達曾主動聯絡Anna’s Archive,甚至詢問如何通過支付費用獲得500TB 數據的高速下載權限。
🛡️ 侵權指控升級:原告不僅指控其內部訓練違規,還控訴英偉達向客戶提供自動化腳本,間接助長了盜版數據的二次傳播。