最近、Meta社が著作権に関する集団訴訟で開示された文書により、同社が違法な電子書籍図書館「Library Genesis(LibGen)」を使って最新のAIチャットボットLlama3を訓練していたことが明らかになり、大きな注目を集めています。これらの文書によると、Metaのエンジニアは、特に著作権とデータ所有権の問題が顕著になっている状況下で、LibGenという「影の図書館」を利用することの潜在的なリスクについて議論していました。潜在的な悪影響と世間の批判リスクがあるにもかかわらず、MetaのCEOマーク・ザッカーバーグはこの決定を承認しました。

画像出典:AI生成画像、画像ライセンス提供元Midjourney
裁判所の要請により、LibGenデータセットの使用に関するMeta内部の機密会話記録が公開されました。文書によると、Metaの幹部はAI研究チームとの議論の中で、LibGenのデータは「違法であることを承知している」と明言し、Llama3の性能向上にそのデータを使用することに同意しました。あるメールの中で、MetaのプロダクトマネジメントディレクターであるSony Theakanathは、LibGenの使用という決定が世間の批判リスクを引き起こすものの、他のAI企業も同様のデータを使用しており、Metaのチームはそれが特異な事例ではないと感じていると指摘しています。
さらに懸念されるのは、Metaの従業員がLibGen内のテキストからISBNや著作権表示などの著作権表示を削除する方法について議論していたことです。内部メモによると、LibGenから提供される資料は「質が高く、文書が長く、特に専門的な知識の学習に最適」とのことです。これは、Metaが無許可のコンテンツの使用を隠蔽しようとしていたことを示唆しています。
さらに、Metaの従業員はメールの中で、会社のIPアドレスを直接使ってシードをダウンロードすることは適切ではないと懸念を表明していました。しかし、ザッカーバーグが「トップダウンで」LibGenデータセットの使用を推進したことで、AI競争におけるMetaの勝利への執着が露呈しました。この事件は、巨大テクノロジー企業における著作権問題に対する注目と疑問を改めて浮き彫りにしました。
この著作権訴訟の結果は、特に画像、音楽、文学などの創作物の使用に関する問題を含む、他の同様の係属中の訴訟に大きな影響を与える可能性があります。テクノロジー企業によるオリジナルコンテンツへの需要が増えるにつれて、オリジナルコンテンツ制作者の権利が注目を集めることになるでしょう。
