谷歌 DeepMind 最近推出了一款名爲 VaultGemma 的新型語言模型,這一創新的技術專注於用戶隱私的保護。VaultGemma 不僅是開源的,而且是目前規模最大的具備差分隱私能力的語言模型,參數數量達到了驚人的10億。這項技術的發佈,標誌着人工智能領域在保護用戶數據隱私方面的重大進步。

傳統的大語言模型在訓練過程中可能會不小心記住一些敏感信息,比如姓名、地址和機密文檔等。爲了應對這一挑戰,VaultGemma 引入了差分隱私技術,通過在訓練過程中添加可控的隨機噪聲,確保模型的輸出無法與特定的訓練樣本關聯。這意味着,即使 VaultGemma 曾接觸過機密文件,從統計學上也無法還原其內容。谷歌的初步測試結果顯示,VaultGemma 確實沒有泄露或復現任何訓練數據,進一步提升了用戶的信任感。

image.png

在技術架構方面,VaultGemma 是基於 Google 的 Gemma2架構,採用了僅解碼器的 Transformer 設計,包含26層,並使用了多查詢注意力機制。一個關鍵的設計選擇是將序列長度限制爲1024個 Token,這樣有助於管理私有訓練所需的高密集計算。開發團隊還藉助一種新穎的 “差分隱私縮放定律”,爲計算能力、隱私預算和模型效用之間的平衡提供了框架。

儘管 VaultGemma 的性能與五年前的普通語言模型相當,在生成能力上略顯保守,但它在保護隱私方面提供了更強的保障。谷歌的研究人員表示,他們將在 Hugging Face 和 Kaggle 上以開源許可證公開 VaultGemma 及其相關代碼庫,讓更多人能夠輕鬆訪問這一私有 AI 技術。

這款模型的推出無疑爲推動隱私安全和開源技術的結合提供了新的可能性,期待它在未來能爲用戶帶來更加安全和可靠的使用體驗。