最近有報道稱 OpenAI 系統遭遇數據泄露事件,但不用擔心您的 ChatGPT 會話內容是否被獲取。雖然這次黑客攻擊本身似乎只是膚淺的,但這提醒了我們,AI 公司已迅速成爲黑客最渴望攻擊的目標之一。
據《紐約時報》報道,前 OpenAI 員工 Leopold Aschenbrenner 在一檔播客中暗示了這次黑客攻擊事件。他稱之爲 “一次重大安全事件”,但匿名公司消息人士告訴《紐約時報》,黑客僅獲得了對員工討論論壇的訪問權限。

安全漏洞絕不應被視爲微不足道,竊聽 OpenAI 內部開發討論當然具有價值。但這遠非黑客獲取內部系統、進行中的模型、祕密路線圖等情況。
儘管如此,這仍然應該引起我們的恐慌,但不一定是因爲中國或其他對手在 AI 軍備競賽中超越我們的威脅。簡單事實是,這些 AI 公司已經成爲非常有價值數據的看門人。
讓我們談談 OpenAI 以及在某種程度上其他 AI 公司創造或訪問的三種數據:高質量的訓練數據、大量用戶交互以及客戶數據。
不確定他們具體擁有什麼訓練數據,因爲這些公司對其珍藏非常保密。但錯誤地認爲它們只是一大堆抓取的網絡數據是不對的。是的,他們確實使用網絡爬蟲或數據集如 “Pile”,但塑造原始數據以用於像 GPT-4o 這樣的模型訓練是一個龐大的任務,這需要大量的人力工時來完成 — 這隻能部分自動化。
一些機器學習工程師推測,在創建大型語言模型(或者,也許是任何基於變換器的系統)時,影響最大的因素之一是數據集的質量。這就是爲什麼在 Twitter 和 Reddit 上訓練的模型永遠不會像在過去一個世紀出版的所有作品上訓練的模型那樣雄辯。 (也可能是爲什麼據稱 OpenAI 在他們的訓練數據中使用了存疑的合法來源,如受版權保護的書籍,他們聲稱已經放棄這種做法。)
因此,OpenAI 建立的訓練數據集對競爭對手、其他公司、對手國家以及美國的監管機構都具有巨大價值。FTC 或法庭是否想知道究竟使用了哪些數據,以及 OpenAI 是否就此事情實際如實?
但也許更有價值的是 OpenAI 龐大的用戶數據庫 — 可能包含數十億與 ChatGPT 進行的數百萬話題的對話。就像搜索數據曾經是瞭解網絡集體心理的關鍵一樣,ChatGPT 掌握着一個可能沒有谷歌用戶羣體那麼廣泛,但提供了更深入的瞭解的人羣。 (如果您不知道,除非您選擇退出,否則您的對話正在被用作訓練數據。)
數百家大公司和無數小公司使用類似 OpenAI 和 Anthropic 的 API 工具進行各種各樣的任務。爲了讓語言模型對他們有用,通常必須對其進行微調或以其他方式讓其訪問其內部數據庫。
這可能是一些枯燥的舊預算表或人員記錄(例如,使它們更易於搜索),也可能是一些尚未發佈的軟件代碼。他們如何使用 AI 的能力(以及它們是否實際上有用)是他們的事情,但簡單事實是 AI 提供者具有特權訪問權限,就像其他任何 SaaS 產品一樣。
這些都是工業機密,而 AI 公司突然成爲這些機密的核心。這一行業的新穎性帶來了一個特殊風險,因爲 AI 流程尚未被標準化或完全理解。
劃重點:
- AI 公司擁有的數據包括高質量訓練數據、用戶交互數據和客戶數據,對競爭對手、監管機構以及市場分析師等都具有巨大價值。
- 用戶與 AI 模型的對話記錄是寶貴的信息,對於開發 AI、營銷團隊和諮詢分析人員而言是一座金礦。
- AI 公司成爲黑客攻擊目標的新趨勢,安全防護措施重要性凸顯,即使沒有嚴重數據泄霞,也應引起關注。
