隨着人工智能(AI)行業面臨日益嚴峻的版權問題,尤其是在 Anthropic 與版權方達成15億美元和解後,許多企業開始重視其訓練數據的合法性。目前,有多達40起未授權數據使用的訴訟案正在進行中,其中包括一起因 Midjourney 製作超人形象而被起訴的案件。

在沒有有效的授權體系的情況下,AI 公司可能面臨大規模的版權訴訟,這讓行業前景堪憂。爲了應對這一挑戰,一羣技術專家和網絡出版商聯合推出了一項名爲 Real Simple Licensing(RSL)的新系統,旨在實現大規模的數據授權。該系統已經得到了 Reddit、Quora 和 Yahoo 等大型網絡出版商的支持,但行業內能否形成合力,吸引主要的 AI 實驗室參與仍然是個未知數。

版權,盜版

RSL 的聯合創始人 Eckart Walther 表示,他們的目標是創建一個可以在互聯網上廣泛應用的訓練數據授權體系。他指出,“我們需要爲互聯網提供機器可讀的許可協議,而 RSL 正是解決這一問題的工具。”

多年來,諸如數據提供者聯盟等組織一直在推動更清晰的數據採集實踐,但 RSL 是第一個旨在提供實際技術和法律基礎設施的嘗試。技術上,RSL 協議定義了出版商可以爲其內容設定的具體許可條款,這包括 AI 公司是否需要定製許可或採用知識共享(Creative Commons)條款。參與的網頁將把條款納入其 “robots.txt” 文件,以便輕鬆識別哪些數據受哪些條款保護。

在法律層面,RSL 團隊建立了一個名爲 RSL Collective 的集體許可組織,旨在爲出版商談判條款並收取版稅,類似於音樂行業的 ASCAP 或電影行業的 MPLC。目前,已經有許多知名出版商加入了這一集體,包括 Yahoo、Reddit 和 Medium 等。

儘管如此,確定 AI 模型具體使用哪些訓練數據以計算版稅的挑戰依然存在。對於實時獲取網絡數據的產品,如谷歌的 AI 搜索摘要,數據使用的追蹤相對簡單,但如果訓練過程未被記錄,確認特定文檔是否被某個大語言模型(LLM)使用就變得困難重重。

儘管存在這些挑戰,RSL 的創建者們相信 AI 公司能夠應對。“他們在之前的某些授權協議中已經需要能夠報告數據使用情況,因此這並不是不可能的,”RSL 的另一位聯合創始人 Doug Leeds 表示。“只要足夠好,就能讓人們得到應有的報酬。”

最後,RSL 的未來能否成功,關鍵在於 AI 公司是否願意接受這一新體系。隨着越來越多的 AI 行業領袖呼籲建立這樣的系統,RSL 團隊希望他們能夠信守承諾。