Googleはこのほど、全新开発されたオープンソースの大規模モデル「Gemma412B」を正式にリリースしました。これはエッジ側でのマルチモーダルAIにおいて画期的な進展を示しています。従来のマルチモーダルモデルが視覚や音声などの外部エンコーダーに依存していた複雑な処理フローを打ち破り、画期的な「Unifed(統一)」エンコーダーなしのアーキテクチャを採用しています。

この設計により、テキスト、画像、音声、ビデオの4つのモーダルの元データが、一つのTransformerのメインネットワークに直接入力され、統合的に処理されるようになり、従来の外部「翻訳」モジュールによるメモリ使用量と高い遅延問題を根本的に解消し、よりネイティブに近いクロスモーダル理解を実現しています。

QQ20260604-091609.jpg

このモデルは、エッジ側でコンシューマー向けハードウェアに最適化されており、パラメータ効率に驚くべき性能を発揮します。ベンチマークテストでは、Google自身の26B規模のモデルと同等のスコアを記録し、メモリ使用量はその半分未満です。モデルは256Kトークンの非常に長いコンテキストウィンドウを備え、140種類以上の言語をサポートし、段階的推論を強化したThinkingモードとネイティブなFunction Calling機能を内蔵しています。

導入面では、このモデルは最低でも16GBのVRAMまたは統一メモリでスムーズに動作し、4ビットの量子化後に8GBにまで下がります。その主な目的は、一般的なノートブック上で効率的なローカル実行を実現することです。現在、Google AI Edge Galleryはスマートフォンからデスクトップへと正式に拡張され、macOSユーザーはダウンロードしてインストールすることで、ローカルでGemma412Bを起動できます。組み込まれたサンドボックスPython環境および音声対話にも対応するEloquentシステムにより、ユーザーはチャットインターフェースでコードを直接実行したり、グラフを描いたり、滑らかな音声同期インタラクションを行ったりできるようになりました。

業界関係者の分析によると、Gemma412Bの登場はAIの非中央集権化の進展をさらに加速させています。極めて高い性能密度とエッジ側への親和性により、クラウドの計算能力の制約を打破し、今後の低遅延とプライバシーの安全を両立させるエッジ側のマルチモーダル個人アシスタントアプリケーションの技術的な道を開きました。