GoogleがGemma412Bオープンソースモデルをリリース: エンコーダーなしのマルチモーダル、16GBメモリのノートブックでローカル実行可能

Googleはこのほど、全新开発されたオープンソースの大規模モデル「Gemma412B」を正式にリリースしました。これはエッジ側でのマルチモーダルAIにおいて画期的な進展を示しています。従来のマルチモーダルモデルが視覚や音声などの外部エンコーダーに依存していた複雑な処理フローを打ち破り、画期的な「Unifed（統一）」エンコーダーなしのアーキテクチャを採用しています。

この設計により、テキスト、画像、音声、ビデオの4つのモーダルの元データが、一つのTransformerのメインネットワークに直接入力され、統合的に処理されるようになり、従来の外部「翻訳」モジュールによるメモリ使用量と高い遅延問題を根本的に解消し、よりネイティブに近いクロスモーダル理解を実現しています。

このモデルは、エッジ側でコンシューマー向けハードウェアに最適化されており、パラメータ効率に驚くべき性能を発揮します。ベンチマークテストでは、Google自身の26B規模のモデルと同等のスコアを記録し、メモリ使用量はその半分未満です。モデルは256Kトークンの非常に長いコンテキストウィンドウを備え、140種類以上の言語をサポートし、段階的推論を強化したThinkingモードとネイティブなFunction Calling機能を内蔵しています。

導入面では、このモデルは最低でも16GBのVRAMまたは統一メモリでスムーズに動作し、4ビットの量子化後に8GBにまで下がります。その主な目的は、一般的なノートブック上で効率的なローカル実行を実現することです。現在、Google AI Edge Galleryはスマートフォンからデスクトップへと正式に拡張され、macOSユーザーはダウンロードしてインストールすることで、ローカルでGemma412Bを起動できます。組み込まれたサンドボックスPython環境および音声対話にも対応するEloquentシステムにより、ユーザーはチャットインターフェースでコードを直接実行したり、グラフを描いたり、滑らかな音声同期インタラクションを行ったりできるようになりました。

業界関係者の分析によると、Gemma412Bの登場はAIの非中央集権化の進展をさらに加速させています。極めて高い性能密度とエッジ側への親和性により、クラウドの計算能力の制約を打破し、今後の低遅延とプライバシーの安全を両立させるエッジ側のマルチモーダル個人アシスタントアプリケーションの技術的な道を開きました。

中国製のエッジ大モデルが初めて世界最先端機種に搭載されました：メンジン・ミニCPMがサムスン Galaxy Z Fold8 シリーズに搭載

サムスンが3機種の折りたたみスマートフォンを発表。面壁智能のMiniCPMオンデバイス大規模モデルが初めてGalaxy AIに搭載され、テキスト理解とマルチモーダル認識機能を提供。中国製オンデバイス大規模モデルが国際大手メーカーのコアサプライチェーンに正式参入したことを示す。....

クレードが経済的な感覚を広げる：AIがどの職業を変革しているのかを一言で尋ねる

Anthropicは自社で構築した経済指数のデータベースをクレードに接続しました。この指標は実際のAIの使用データに基づいています。ユーザーはclaude.aiで直接質問ができ、例えば「どの職業でAIを使用していますか」といった質問に対して、指数から直接答えが出力されるので、モデルが勝手に作り出すことなく、データ駆動型の回答が可能です。これはクレードと現実世界でのAIの使用状況との連携を示しています。

GoogleがGemma412Bオープンソースモデルをリリース: エンコーダーなしのマルチモーダル、16GBメモリのノートブックでローカル実行可能

関連推奨

中国製のエッジ大モデルが初めて世界最先端機種に搭載されました：メンジン・ミニCPMがサムスン Galaxy Z Fold8 シリーズに搭載

マイクロソフトクラシック版Outlookは年末までにCopilot AIのメール作成機能を統合し、Win10/Win11への対応が行われる予定

Monday.com 630人の従業員が人工智能戦略に注力

OpenAIのAIエージェントの制御不能事件：人工知能の安全性への警告

クレードが経済的な感覚を広げる：AIがどの職業を変革しているのかを一言で尋ねる