世界中のオープンソース大規模モデルエコシステムは、アーキテクチャの面で画期的な突破を遂げました。グーグルは6月3日に、新しい統合マルチモーダルモデルGemma412Bを正式にリリースしました。このモデルの最大のイノベーションは、従来のマルチモーダルモデルにとって不可欠だった「エンコーダー」コンポーネントを完全に廃止したことです。これにより、一般ユーザー向けハードウェアでのローカルなデプロイと推論効率が質的に向上しました。

従来のマルチモーダル構造では、モデルは通常、画像や音声信号をテキストトークンと一致する次元に変換するために、独立したビジュアルおよびオーディオエンコーダーに依存していました。これはモデルのサイズと計算複雑性を無意識に増加させます。一方、Gemma412Bは独自のアプローチを取り、軽量な埋め込み層を使用して直接視覚入力を処理します。一度の行列乗算、位置埋め込み、正規化操作だけで変換が可能です。また、音声信号も直接テキストトークンの次元空間に投影されます。このような簡略化された「エンコーダーなし」設計により、計算ステップが大幅に削減され、モデル自体が非常に軽量化されています。

image.png

このベースラインアーキテクチャの最適化により、パラメータ数120億の高性能モデルは、一般ユーザー向けハードウェアの実行要件以内に完全に圧縮されました。開発者や一般的なユーザーは、16GBのVRAMまたは統一メモリがあれば、ハイエンドノートPC上で直接ローカルにデプロイし、スムーズに動作させることができます。これは、ユーザーが高価なクラウドコンピューティング能力に頼ることなく、オフラインで複雑なビジュアルおよびオーディオタスクを処理できることを意味します。

Gemma412Bの実際の性能においては、マルチステップ推論とエージェントワークフロー(Agent)機能が、グーグルのより大きな26B MoEモデルとほぼ同等に近づいています。さらにパフォーマンスを最大限に引き出すために、このモデルには多トークン予測(MTP)技術が搭載されており、複数のトークンを同時に予測できるため、エッジ側の推論応答速度を著しく高速化しています。

現在、Gemma412B