4月3日、メイドテクノロジーチームはネイティブなマルチモーダル大規模モデル LongCat-Next を正式にリリースしました。このモデルは従来の「言語ベース+プラグイン」の組み合わせ構造を打ち破り、画像、音声、テキストを同じソースの離散トークンに統一して変換することで、AIが初めて物理世界を「見る」と「聞く」ことをネイティブに可能にしました。

技術の核:DiNAアーキテクチャによる「モダリティ内化」

モダリティ間の隔絶を打破するために、メイドDiNA(ディスクリートネイティブアラーキブ)アーキテクチャ を構築し、マルチモーダルモデリングの深い統一を実現しました:

  • 全モダリティ統一: テキスト、画像、またはオーディオに関係なく、モデルは同一のパラメータ、注目機構、および損失関数を使用します。

  • 理解と生成の対称性: 統一された数学形式において、テキストトークンを予測することは「理解」であり、画像トークンを予測することは「生成」です。訓練中に両者は顕著な協調的潜在能力を示します。

  • 極限的な圧縮: dNaViTビジョントークナイザ を採用し、任意解像度の入力をサポートします。8層の残差ベクトル量子化により、28倍のピクセル空間圧縮が可能となり、OCR、財務報告解析などのタスクで重要な詳細を完全に保持します。

実証性能:ディスクリートモデリングには「上限」がない

LongCat-Nextは、専用モデルを超える性能を多くの次元で示しており、「ディスクリート化は情報の損失を伴う」という伝統的な見解を有力に打ち返しています:

  • 細粒度の認識: OmniDocBenchの密集テキストシナリオテストでは、Qwen3-Omniを上回るだけでなく、専用視覚モデルであるQwen3-VLよりも優れています。

  • 視覚推論: MathVistaテストで83.1のリードを記録し、強力な産業レベルの論理能力を示しています。

  • マルチモーダル協働: トップクラスの言語能力(C-Eval 86.80)を維持しながら、低遅延の並行テキスト・音声生成およびカスタマイズ可能な音声クローンをサポートしています。

業界観察:物理世界におけるAIの基盤

長年にわたり、大規模モデルは言語中心のシステムでした。しかし、LongCat-Nextの意義は、物理情報がディスクリート化され、言語のようにモデリングできることが証明された点にあります。AIが統一された「母語」を持つようになると、ツールの呼び出しやコードの作成、複雑な図表の理解がより賢く、直感的になります。

現在、メイドは、LongCat-NextモデルおよびdNaViTトークナイザをすべてオープンソース化しています。この小さなサイズながら大きな潜在力を有するネイティブなディスクリートアーキテクチャは、開発者に現実世界を感知し、作用させるAIを構築するための重要なツールとなるでしょう。