近日,一項新研究引發關注,指控 OpenAI 在訓練其最新的 AI 模型時,使用了 O'Reilly 媒體的付費書籍,但並未獲得許可。這項研究由一家名爲 AI Disclosures Project 的非營利組織發佈,該組織是由媒體大亨 Tim O'Reilly 和經濟學家 Ilan Strauss 於2024年共同創辦的。

AI 模型可以被視爲複雜的預測引擎,它們通過大量的數據(包括書籍、電影、電視節目等)學習模式,從而對簡單的提示進行推測。當模型寫作時,例如創作關於希臘悲劇的文章,或者繪製風格化的圖像,其實是從龐大的知識庫中提取信息,而並非創造出全新的內容。
隨着越來越多的 AI 實驗室,包括 OpenAI,開始使用 AI 生成的數據來訓練模型,以應對現實世界數據(主要是公共網絡資源)日益枯竭的挑戰,訓練模型的方式也在發生變化。儘管如此,完全依賴合成數據的風險使得很多機構仍然選擇使用真實數據進行訓練。
這項研究的論文指出,OpenAI 的 GPT-4o 模型很可能是基於 O'Reilly 的付費書籍進行訓練的,而 O'Reilly 並未與 OpenAI 達成許可協議。研究表明,與早期的 GPT-3.5Turbo 模型相比,GPT-4o 對於 O'Reilly 付費書籍內容的識別能力顯著增強。
研究者使用了一種名爲 DE-COP 的方法,該方法用於檢測語言模型訓練數據中的版權內容。研究中,作者對 GPT-4o、GPT-3.5Turbo 及其他 OpenAI 模型的知識進行了分析,使用了來自34本 O'Reilly 書籍的13962個段落摘錄,以估計這些摘錄在模型訓練數據中的概率。
研究結果顯示,GPT-4o 對更多的付費 O'Reilly 書籍內容表現出了較高的識別度,這在一定程度上表明該模型可能在訓練過程中接觸到了這些非公開的書籍內容。
儘管如此,研究者也指出這並不是決定性的證據,OpenAI 或許是通過用戶複製粘貼的方式獲取了這些內容。此外,研究未對 OpenAI 最新模型進行評估,因此不排除這些模型沒有使用 O'Reilly 的付費書籍進行訓練的可能性。
儘管 OpenAI 在部分訓練數據上是付費獲取的,並且與新聞出版商、社交網絡等達成了協議,但在當前法律環境下,其使用訓練數據的做法仍受到多方質疑。這項研究無疑讓 OpenAI 在衆多關於訓練數據使用的訴訟中,面臨更加嚴峻的挑戰。
劃重點:
📚 OpenAI 被指控未經授權使用 O'Reilly 的付費書籍進行 AI 模型訓練。
🔍 研究顯示,GPT-4o 對 O'Reilly 書籍的識別能力顯著高於早期模型。
⚖️ OpenAI 在使用訓練數據方面正面臨多重法律挑戰。
