人気記事予約：トークンの不安から卒業！ブラウザでローカルにGemma4を走らせる手描きフロー図はすべて無料

モバイル端末で大規模なモデルを実行することはもはや珍しくありませんが、ブラウザに強力なAI処理能力を備えることが新たな技術トレンドとなっています。最近、開発者たちはGoogleが公開した最新のTurboQuantアルゴリズムを導入し、Gemma4モデルをブラウザ内に組み込むことに成功しました。これにより、ユーザーは複雑なAPI環境を設定する必要もなく、サブスクリプション料金を支払う必要もなく、ローカル環境でスムーズなAIとのインタラクションを実現できます。

コアテクノロジー：TurboQuantによる記憶革命

今回の技術的突破の鍵は、Googleが開発したTurboQuantアルゴリズムです。このアルゴリズムは主に大規模モデルの「一時的なメモリーバッファ」であるKV Cache（キー・バリューキャッシュ）を深く最適化しています。

従来のモードでは、長文の会話や複雑なタスクを処理する際、キャッシュデータが急速に膨張し、システムがフリーズすることがありました。しかし、TurboQuantはこれらのベクトルデータを元の六分の一に圧縮し、圧縮状態のまま検索が可能になります。「解凍せずに直接検索」という特徴により、モデルはより長いコンテキストを記憶できるだけでなく、計算効率も大幅に向上します。

実測体験：30秒で専門的なフローチャートを生成

この技術を統合したローカル対応の図作成ツールを例にすると、ユーザーはWebGPUをサポートするChrome 134以上でのデスクトップブラウザを開くだけで、Gemma4E2Bモデルを使用できます。

実際のテストでは、構造が完全なExcalidrawのフローチャートを作成するのに約32.9秒かかりました。データによると、このモデルはブラウザ内で1秒あたり約24トークンの速度で生成しており、エンドツーエンドの応答性が良好です。最も顕著な利点は、すべての計算プロセスがユーザーのローカル機器上で行われるため、オンライントークンを一切消費しないということです。これは真正なる「創作コストゼロ」を実現しています。

ハードルと展望：ローカルAIアプリケーションの新形態

「ネットワークの自由度」を達成したものの、ローカルでの動作にはある程度のハードウェアの要件があります。ユーザーは初めて使用する際、約3.1GBのモデルファイルをダウンロードする必要がありますし、ブラウザバージョンにも明確な制限があります。

データセンター間のイノベーション：Moonshot AI と清華大学が PrfaaS アーキテクチャを提案

Moonshot AI と清華大学は、大規模言語モデルの推論における計算リソースのボトルネックを解決するため、プリフィルイング・アズ・サービス（PrfaaS）という新しいアーキテクチャを提案しました。このアーキテクチャでは、計算が高密度なプリフィルイングステージ（キー値キャッシュの生成）とデコードステージを分離し、リソース利用率を最適化し、従来のサービスの制限を突破することを目指しています。

グーグルが静かに「Google AI Edge Eloquent」をリリース、Gemma4をベースにした無料オフラインAI音声変換ツール

グーグルはiOSプラットフォームで実験的な音声入力アプリ「Google AI Edge Eloquent」をリリースし、オフライン優先とスマートな文章修正機能を特徴としています。エッジAI技術を使用して、会話形式の音声をリアルタイムで専門的なテキストに変換します。この行動は、グーグルが高級AI音声からテキストへの市場に進出するものであり、Wispr FlowとSuperWhisperと競合することになります。アプリにはGemma4シリーズの技術が搭載されており、リアルタイム処理とテキスト最適化能力を強調しています。

グーグルがGemma4オープンソースモデルをリリース：Apacheライセンスを採用し、開発者の生産性を完全に解放

グーグルは新世代のオープンソースAIモデルであるGemma4をリリースしました。Apache2.0ライセンスを採用しており、これまでの制限的な協定に代わって、開発者が自由に使い方、修正、配布できるようにしています。これにより商業利用も容易になります。このモデルは技術的な構造で性能とエコシステムの互換性の両方を向上させました。

グーグルが正式にGemma4オープンソース大モデルを発表：4種類のバージョンをカバー、31Bバージョンは世界のオープンソースランキングで第3位

Googleがオープンソース大規模モデルGemma4を発表。パラメータ効率を向上させ、オープンソースモデルによるエージェントワークフローの新基準を設定。2.3B、4.5Bの効率版と26B、31Bの高性能版を提供し、Gemini3技術を基盤にマルチモーダル入力を全モデルでサポート。一部モデルは音声入力にも対応し、エッジ側でのリアルタイム音声理解を実現。....