近日,有消息稱,這家市值萬億美元的科技巨頭在一項集體訴訟中被指控曾直接聯繫安娜檔案館(Anna's Archive),試圖獲取高達 500TB 的盜版電子書數據,以用於其大模型的訓練。這一行爲引發了書籍作者們的強烈反對,他們認爲英偉達的舉動不僅侵犯了版權,還顯現出其在競爭壓力下的極端手段。

安娜檔案館是一個知名的盜版電子書資源庫,儘管其曾多次發出警告,指出其數據來源爲非法獲取,英偉達卻依然向其求助,意圖加快模型訓練的速度。根據訴訟文件,幾位書籍作者引用了英偉達的內部通信,表明該公司曾試圖獲得與安娜檔案館的合作,意圖將這些盜版書籍納入到其大型語言模型的預訓練數據中。

在過去的幾年中,英偉達不僅在顯卡市場上佔有一席之地,還在訓練其自家的 AI 模型,如 NeMo、Retro-48B 等。爲了趕上競爭對手 OpenAI 推出的 ChatGPT,英偉達在 2023 年秋季的開發者日上急於展示其最新的大模型。爲此,該公司似乎毫不猶豫地選擇了盜版資源作爲 “捷徑”。

儘管英偉達在最初的迴應中否認了侵權指控,聲稱其使用這些數據構成合理使用,但隨着訴訟的推進,情況愈發複雜。書籍作者們強調,英偉達的行爲是因爲競爭壓力而 “迫使” 其走上盜版之路。他們還透露,英偉達不僅聯繫了安娜檔案館,還從其他盜版網站如 LibGen、Sci-Hub 和 Z-Library 下載書籍。

目前,安娜檔案館的法律麻煩不斷升級,其未來的發展也令人堪憂。而英偉達雖在訴訟中受到質疑,但其影響力似乎並未受到明顯損害。科技界將持續關注這一事件的發展,看看這場圍繞 AI 和版權的鬥爭將如何演變。