Salesforce 公司因其 xGen 系列大語言模型涉嫌使用盜版書籍進行訓練而被兩位小說家提起集體訴訟。該訴訟於10月15日在舊金山的美國地方法院提起,原告莫莉・坦澤(Molly Tanzer)和詹妮弗・吉爾摩(Jennifer Gilmore)指控 Salesforce 未經授權下載、存儲、複製和使用了大量受版權保護的書籍數據集,以開發其 AI 模型。

這一事件並非孤例,類似的侵權指控已在 AI 行業屢見不鮮。就在上個月,生成性 AI 公司 Anthropic 也因使用數百萬本盜版書籍進行模型訓練而達成了15億美元的和解。對此,伊利諾伊大學芝加哥分校的數據科學與 AI 戰略副校長邁克爾・貝內特(Michael Bennett)表示,Salesforce 的案子與 Anthropic 的案件非常相似。在 Anthropic 的案件中,法官裁定合法獲得的作品用於訓練模型的行爲屬於 “合理使用”,而非法獲得的作品則不享有此保護。
目前,Salesforce 的案件很可能會通過和解方式解決,類似於 Anthropic 的和解結果。RPA2AI 的創始人兼分析師卡夏普・孔佩拉(Kashyap Kompella)認爲,這一事件表明版權擁有者在法律上具備一定的籌碼,而訓練數據的來源問題既是商業問題也是法律問題。
此外,這場訴訟可能會對 Salesforce 產生進一步的負面影響,尤其是讓其企業客戶對其模型及訓練數據集的信任度產生疑慮。孔佩拉強調,企業客戶需要確認其 AI 供應商所使用的數據源是經過許可、可審計且合理的,這對企業來說是至關重要的。
類似的訴訟可能會成爲更廣泛的 AI 技術應用的障礙,企業在選擇 AI 供應商時,必須深入瞭解訓練數據的來源以及相關的賠償條款。
劃重點:
- 📚 Salesforce 因涉嫌使用盜版書籍訓練 AI 模型而被起訴。
- ⚖️ 該案件可能通過和解方式解決,類似於 Anthropic 案件的結果。
- 🔍 企業客戶對 AI 模型的信任度可能受到影響,需確保數據來源的合法性。
