記事本文

16GBメモリでローカルで即時応答！グーグルがGemma 4 12Bを発表し、非符号化器アーキテクチャで画期的な変化をもたらす

公開AI二ュ-ス

時間 :Jun 4, 2026

読む :1分

世界中のオープンソース大規模モデルエコシステムは、アーキテクチャの面で画期的な突破を遂げました。グーグルは6月3日に、新しい統合マルチモーダルモデルGemma412Bを正式にリリースしました。このモデルの最大のイノベーションは、従来のマルチモーダルモデルにとって不可欠だった「エンコーダー」コンポーネントを完全に廃止したことです。これにより、一般ユーザー向けハードウェアでのローカルなデプロイと推論効率が質的に向上しました。

従来のマルチモーダル構造では、モデルは通常、画像や音声信号をテキストトークンと一致する次元に変換するために、独立したビジュアルおよびオーディオエンコーダーに依存していました。これはモデルのサイズと計算複雑性を無意識に増加させます。一方、Gemma412Bは独自のアプローチを取り、軽量な埋め込み層を使用して直接視覚入力を処理します。一度の行列乗算、位置埋め込み、正規化操作だけで変換が可能です。また、音声信号も直接テキストトークンの次元空間に投影されます。このような簡略化された「エンコーダーなし」設計により、計算ステップが大幅に削減され、モデル自体が非常に軽量化されています。

このベースラインアーキテクチャの最適化により、パラメータ数120億の高性能モデルは、一般ユーザー向けハードウェアの実行要件以内に完全に圧縮されました。開発者や一般的なユーザーは、16GBのVRAMまたは統一メモリがあれば、ハイエンドノートPC上で直接ローカルにデプロイし、スムーズに動作させることができます。これは、ユーザーが高価なクラウドコンピューティング能力に頼ることなく、オフラインで複雑なビジュアルおよびオーディオタスクを処理できることを意味します。

Gemma412Bの実際の性能においては、マルチステップ推論とエージェントワークフロー（Agent）機能が、グーグルのより大きな26B MoEモデルとほぼ同等に近づいています。さらにパフォーマンスを最大限に引き出すために、このモデルには多トークン予測（MTP）技術が搭載されており、複数のトークンを同時に予測できるため、エッジ側の推論応答速度を著しく高速化しています。

現在、Gemma412B

サムスンはミストラルAIへの投資により、米国のテクノロジー巨大企業の独占を打破しようとしている

サムスンが仏AI新興Mistralへの約10億ユーロ投資を協議中。米テック大手に対抗するAI開発を支援し、評価額は約200億ユーロに達する見通し。既に投資部門が出資しており、業界の大きな潮流を反映。....

Jul 22, 2026

274.6k

OpenRouterは音声認識を同じAPIに統合：1つのキーでチャットと転記を対応。Whisperとトークン課金のSTTが統合されました

OpenRouterは音声転記エンドポイントをリリースし、統一されたAPIキーを提供します。開発者はBase64形式の音声を送信するだけで、直接文字起こしテキストを得ることができます。従来のWhisperやサードパーティのSDKを別途統合する必要がなくなり、チャットと転記の間に存在していた断絶感が完全に解消されました。

Jul 22, 2026

134.8k

宇宙データがAIに衝突！マスクはスペースXの全てを出し切り、2兆パラメーターのGrok大規模モデルが即座に完成

マスク氏はSpaceXの製造ノウハウや材料科学、スターリンク設計データなど膨大なエンジニアリング情報を次世代Grok AIの訓練に活用すると発表。輸出規制対象のロケットエンジンや誘導制御など国防機密は除外し、コンプライアンスを確保。先端リソースの分野横断的統合力を示した。....

Jul 22, 2026

143.3k

偽の動画も一目でわかる！ナビダがSVD検出サービスをリリース。AI偽造の正確度は92%に達する

ナビダは合成動画検出サービスSVDをリリースし、AIによる深度偽造への対応を図る。このサービスは推論マイクロプラットフォームに統合されており、動画を1フレームずつに分割してカットフレームにし、視覚モデルを用いて空間特性を分析してスコアを付けることで、AI生成コンテンツを正確に識別する。

Jul 22, 2026

139.5k

SubstackがPangram検出ツールを統合し、ウェブおよびモバイルのAIテキスト認識機能をリリース

SubstackはAIコンテンツ検出機能をリリースしました。この機能はPangramの技術により支えられ、記事、ノート、返信などのすべてのシナリオをカバーし、読者が人間とAIによって生成されたコンテンツを区別するのを助けます。この機能はすでにウェブ版とiOSでリリースされ、Android版は近日中にリリースされる予定です。

Jul 22, 2026

135.8k

インテリジェントな未来、あなたの人工知能ソリューションシンクタンク

English 简体中文繁體中文にほんご

16GBメモリでローカルで即時応答！グーグルがGemma 4 12Bを発表し、非符号化器アーキテクチャで画期的な変化をもたらす

関連推奨

サムスンはミストラルAIへの投資により、米国のテクノロジー巨大企業の独占を打破しようとしている

OpenRouterは音声認識を同じAPIに統合：1つのキーでチャットと転記を対応。Whisperとトークン課金のSTTが統合されました

宇宙データがAIに衝突！マスクはスペースXの全てを出し切り、2兆パラメーターのGrok大規模モデルが即座に完成

偽の動画も一目でわかる！ナビダがSVD検出サービスをリリース。AI偽造の正確度は92%に達する

SubstackがPangram検出ツールを統合し、ウェブおよびモバイルのAIテキスト認識機能をリリース