グーグルのDeepMindは最近、VaultGemmaという新しい言語モデルをリリースしました。この技術はユーザーのプライバシー保護に特化しており、オープンソースであり、現在までで最大規模の差分プライバシー機能を持つ言語モデルです。パラメータ数は驚くほど10億に達しています。この技術の登場は、人工知能分野におけるユーザーのデータプライバシー保護において大きな進歩を示しています。

従来の大規模言語モデルは、トレーニング中に誤って機密情報、例えば名前や住所、秘密文書などの情報を覚えてしまう可能性があります。この課題に対処するために、VaultGemmaは差分プライバシー技術を導入し、トレーニング中に制御可能なランダムノイズを追加することで、モデルの出力が特定のトレーニングサンプルと関連付けられることを防ぎます。これは、VaultGemmaが機密ファイルに触れたとしても、統計的にその内容を復元することはできないことを意味します。グーグルの初期テスト結果によると、VaultGemmaは訓練データを漏洩したり再現したりしていないことが確認されており、ユーザーの信頼感をさらに高めています。

image.png

技術的な構造に関しては、VaultGemmaはGoogleのGemma2アーキテクチャに基づいており、デコード専用のTransformer設計を使用し、26層の構成となっています。また、マルチクエリアテンションメカニズムも採用しています。重要な設計選択の一つとして、シーケンス長を1024トークンに制限する方法が採用されています。これは、プライベートトレーニングに必要な高密度計算を管理するのに役立ちます。開発チームはまた、計算能力、プライバシーバジェット、モデルの効用のバランスを取るための枠組みを提供する新しい「差分プライバシーのスケーリング法則」を活用しています。

VaultGemmaの性能は5年前の一般的な言語モデルと同等であり、生成能力はやや控えめですが、プライバシー保護についてはより強固な保障を提供しています。グーグルの研究者は、Hugging FaceとKaggleでオープンソースライセンスを通じてVaultGemmaとその関連コードベースを公開する予定であると述べています。これにより、多くの人が簡単にプライベートAI技術にアクセスできるようになります。

このモデルの登場は、プライバシー安全とオープンソース技術の統合に新たな可能性をもたらすものであり、今後ユーザーにとってより安全で信頼性のある使用体験を提供することを期待しています。