グーグルが新しいGemma 4 12Bモデルを発表：視覚と音声データを簡単に処理し、エンコーダーは不要

最近、グーグルは最新の統合マルチモーダルモデルである「Gemma 4 12B」を正式に公開しました。このモデルには120億のパラメータがあり、最大の特徴は従来のマルチモーダルエンコーダーを必要とせず、直接画像および音声データを処理できる点です。コンシューマー向けハードウェアでの使用を考慮し、Gemma 4 12Bは16GBのVRAMまたは統一メモリのみで動作し、高級なノートブックでローカルに実行でき、クラウド計算リソースに依存する必要がありません。

Gemma 4 12Bの設計の革新点は、従来のマルチモーダルモデルに含まれるエンコーダー部品を省略したことです。過去のマルチモーダルモデルでは、画像と音声を独立した視覚・音声エンコーダーで変換する必要がありました。一方、Gemma 4 12Bは軽量な埋め込み層を採用し、視覚入力の処理を簡略化しています。一度の行列乗算、位置埋め込みおよび正規化操作だけで済むため、計算複雑度が大幅に低下します。一方で、音声信号はテキストトークンの次元空間に直接投影され、音声エンコーダーの必要性が省かれます。このようなエンコーダーなしの設計により、Gemma 4 12Bは推論時の計算ステップ数が減少し、よりコンパクトな構造になります。

性能面では、Gemma 4 12Bはグーグルのより大きな26B MoEモデルに近い水準であり、さまざまなベンチマークテストで優れた多段推論能力とエージェントワークフロー能力を示しています。さらに、このモデルにはMulti-Token Prediction（MTP）ドラフト機能が搭載されており、複数のトークンを同時に予測することで、推論速度を高速化できます。現在までに、Gemma 4シリーズの累計ダウンロード数は1億5,000万回を超え、開発者コミュニティによるオープンソースモデルへの熱烈な反応が示されています。

Gemma 4 12BはApache 2.0ライセンスでオープンソースされており、重みファイルはHugging FaceやKaggleなどのプラットフォームで公開されており、LM Studio、Ollama、MLX、SGLang、vLLMなど様々な推論フレームワークをサポートしています。また、グーグル自身のAI Edge Galleryもエッジ側デプロイメントをサポートしており、開発者はGoogle CloudのModel Garden、Cloud Run、GKEなどのサービスを通じて大規模な本番環境でのデプロイメントを行うことができます。

重要なポイント：
🌟 Gemma 4 12Bモデルは従来のエンコーダーを必要とせず、画像および音声データを直接処理でき、運用要件が低く、使いやすいです。
⚡ 軽量な埋め込み層を採用し、計算複雑度を大幅に下げ、性能はグーグルのより大きな26B MoEモデルとほぼ同等です。
📈 累計ダウンロード数は1億5,000万回を突破し、多様な推論フレームワークとエッジ側デプロイメントをサポートしており、開発者から非常に人気があります。

グーグルが新しいGemma 4 12Bモデルを発表：視覚と音声データを簡単に処理し、エンコーダーは不要

関連推奨

専用モデルの制約を打ち破れ！グーグルDeepMind、GenCeptionを発表。AI1つで5つのビジョンタスクを処理

知元ロボティクスがIPOを準備していると噂、目標評価額は200億ドル

米国の大規模モデルがDeepSeekの作業を真似た：パフォーマンスでは勝てず、価格は高すぎるが、アメリカ企業のコンプライアンス上のニーズを正確に捉えている

日本のSakana AIがFugu Cyberを発表：GPT-5.5-CyberおよびClaudeを下回るマルチエージェントシステム

Anthropic Fable 5 のトレーニングコストはオープンソースモデルの3倍で、今後の課題に直面する