近日,隨着 Meta 公司在一場關於版權的集體訴訟中披露的文件浮出水面,該公司利用一個名爲 Library Genesis(LibGen)的盜版電子書圖書館來訓練其最新的 AI 聊天機器人 Llama3的消息引發了廣泛關注。這些文件顯示,Meta 的工程師曾討論過利用 LibGen 這一 “影子圖書館” 的潛在風險,尤其是在版權和數據擁有權問題日益突出的背景下。儘管存在潛在的負面影響和輿論風險,Meta 的首席執行官馬克・扎克伯格依然批准了這一決定。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
在法庭的要求下,Meta 內部關於使用 LibGen 數據集的機密對話記錄被解密,文件顯示,Meta 的高管在與 AI 研究團隊的討論中明確表示 LibGen 的數據是 “我們知道是盜版的”,並同意使用該數據來提高 Llama3的性能。一封郵件中,Meta 的產品管理總監 Sony Theakanath 指出,雖然使用 LibGen 的決定引發了輿論風險,但其他 AI 公司也在使用類似的數據,這使得 Meta 的團隊感到這條路並非孤例。
更令人擔憂的是,Meta 的員工還討論瞭如何處理和過濾 LibGen 中的文本,以去除版權標識,如 ISBN 和版權聲明。內部備忘錄稱,LibGen 提供的材料 “質量高且文檔較長,非常適合學習特別專業的知識”。這表明 Meta 似乎試圖隱蔽其使用未經授權的內容。
此外,Meta 的員工還在郵件中提到,直接使用公司 IP 地址進行種子下載可能不妥,並對這一行爲表示擔憂。然而,在扎克伯格 “從高層推動” 使用 LibGen 數據集的情況下,Meta 在 AI 競賽中的求勝心態顯露無遺。這一事件也再次引發了外界對大型科技公司在版權問題上的關注與質疑。
這一版權訴訟的結果可能會對其他正在進行的類似案件產生重要影響,尤其是涉及圖像、音樂和文學等創作作品的使用問題。隨着科技公司對原創內容的需求不斷增加,原創內容創作者的權益將成爲關注的焦點。
