人工知能スタートアップのInception Labsは、近日、Mercury2をリリースしました。これは性能が強く、さらに下層のアーキテクチャにおいて大胆な「パラダイムシフト」を実現したモデルです。

image.png

このモデルは現在主流のTransformerアーキテクチャを完全に廃止し、テキスト生成には拡散モデル(Diffusion-based)を採用しています。これにより、従来の大規模モデルの性能ボトルネックを打ち破る試みが行われています。

image.png

従来のモデルのように1文字ずつトークン(文字)を生成するのではなく、Mercury2の仕組みは経験豊富な編集者に似ています。1文字ずつ生成するのではなく、複数のテキストブロックを同時に全体最適化や再構成することができます。このような並列処理のロジックにより、Mercury2は複雑な論理推論タスクにおいて驚くべき速度の優位性を示しています。

AIbaseが取得した実測データによると、NVIDIA Blackwell GPUのサポートのもと、Mercury2の生成速度は驚くほど1秒間に1009トークンに達しています。エンドツーエンドの遅延テストでは、このモデルは1.7秒で応答を完了します。これはGoogleのGemini3Flashより8倍以上速く、AnthropicのClaude Haiku4.5よりもはるかに優れています。スピードが非常に速いにもかかわらず、GPQA DiamondやAIMEなどの権威ある推論ベンチマークテストにおいても、現在のトップクラスの軽量推論モデルと同等の品質を維持しています。

Inception Labsは、競争力のある価格戦略を採用しており、入力と出力のコストは同業他社の四分の一です。現在、Mercury2はAPIインターフェースを正式に公開しており、128,000トークンの超長文対応およびツール呼び出し機能をサポートしています。応答速度を追求する音声アシスタント、検索システム、プログラミングツールにとって、「非常識な道を歩む」この拡散推論モデルは、魅力的な新選択肢を提供しています。

要約:

  • 🌀 アーキテクチャの本質的な革新:従来の1文字ずつ生成のモードを捨て、拡散モデル技術を採用し、複数のテキストブロックを同時に全体最適化できるようにし、推論ロジックに質的な変化をもたらします。

  • 極めて高性能な表現:最新のハードウェアによって支えられ、秒単位での応答が可能となり、1秒間に1000以上のトークンを生成し、遅延性能はGemini3やClaude4.5を大幅に上回ります。

  • 💰 高コスト効果の商用戦略:非常に低い価格コストで既存市場の枠組みに挑戦し、長文対応およびAPI接続をサポートし、特に遅延に敏感な企業向けAIアプリケーションを主に狙っています。