正文

英偉達身陷版權風暴:被指主動接觸“影子圖書館”獲取數百萬盜版書訓練 AI

發布於AI新閒資訊

時間 :Jan 20, 2026

閱讀 :1分鐘

全球芯片巨頭英偉達（NVIDIA）近期因 AI 模型訓練數據來源問題深陷法律糾紛。一份最新提交給美國加州法院的修正起訴書披露了驚人細節:英偉達被指控爲了在競爭中保持領先，主動與全球知名的盜版電子書站點Anna’s Archive進行接觸，試圖獲取數百萬本受版權保護的書籍。

原告方由 Abdi Nazemian 等多位作家組成，他們聲稱英偉達在面臨2023年開發者大會的交付壓力下，內部戰略團隊成員曾直接詢問Anna’s Archive能提供哪些資源，並表達了將其納入大語言模型（LLM）預訓練數據的意願。指控指出，儘管對方曾明確提醒其館藏屬於非法獲取，英偉達管理層仍在一週內“開綠燈”批准繼續推進，從而獲得了約500TB 的海量數據訪問權。

除了Anna’s Archive，起訴書還提到英偉達可能使用了 LibGen、Sci-Hub 及 Z-Library 等其他“影子圖書館”的數據來源。此外，該公司還被指向企業客戶分發工具，協助其自動獲取包含盜版作品的數據集，因此被指控存在“替代侵權”和“共同侵權”行爲。英偉達此前曾試圖以“合理使用”爲由進行辯解，但隨着這些內部郵件等關鍵證據的流出，案件正向着更有利於版權方的方向發展。

劃重點:

⚖️ 深陷集體訴訟:多位知名作家聯合指控英偉達大規模使用盜版圖書訓練其 NeMo、Megatron 等核心模型。
📑 主動接洽盜版源:內部郵件顯示英偉達曾主動聯絡Anna’s Archive，甚至詢問如何通過支付費用獲得500TB 數據的高速下載權限。
🛡️ 侵權指控升級:原告不僅指控其內部訓練違規，還控訴英偉達向客戶提供自動化腳本，間接助長了盜版數據的二次傳播。

NVIDIA 發佈 Nemotron 3 Embed 系列，8B 版本登頂 RTEB 檢索基準

NVIDIA推出Nemotron3Embed嵌入向量模型系列，專爲生產級RAG、智能體檢索、代碼檢索和記憶場景設計。8B版本在RTEB基準測試中排名第一，成爲性能最強的開源嵌入模型。系列包含三個開放檢查點：精度優先的Nemotron-3-Embed-8B-BF16、輕量化的1B-BF16版，以及針對Blackwell架構優化的1B-NVFP4四比特版本，所有模型均採用雙向注意力機制。

Jul 17, 2026

341.9k