メイドゥーがネイティブマルチモーダルLongCat-Nextを発表：視覚と音声の下層統一を実現

4月3日、メイドテクノロジーチームはネイティブなマルチモーダル大規模モデル LongCat-Next を正式にリリースしました。このモデルは従来の「言語ベース＋プラグイン」の組み合わせ構造を打ち破り、画像、音声、テキストを同じソースの離散トークンに統一して変換することで、AIが初めて物理世界を「見る」と「聞く」ことをネイティブに可能にしました。

技術の核：DiNAアーキテクチャによる「モダリティ内化」

モダリティ間の隔絶を打破するために、メイドは DiNA（ディスクリートネイティブアラーキブ）アーキテクチャ を構築し、マルチモーダルモデリングの深い統一を実現しました：

全モダリティ統一： テキスト、画像、またはオーディオに関係なく、モデルは同一のパラメータ、注目機構、および損失関数を使用します。
理解と生成の対称性： 統一された数学形式において、テキストトークンを予測することは「理解」であり、画像トークンを予測することは「生成」です。訓練中に両者は顕著な協調的潜在能力を示します。
極限的な圧縮： dNaViTビジョントークナイザ を採用し、任意解像度の入力をサポートします。8層の残差ベクトル量子化により、28倍のピクセル空間圧縮が可能となり、OCR、財務報告解析などのタスクで重要な詳細を完全に保持します。

実証性能：ディスクリートモデリングには「上限」がない

LongCat-Nextは、専用モデルを超える性能を多くの次元で示しており、「ディスクリート化は情報の損失を伴う」という伝統的な見解を有力に打ち返しています：

細粒度の認識： OmniDocBenchの密集テキストシナリオテストでは、Qwen3-Omniを上回るだけでなく、専用視覚モデルであるQwen3-VLよりも優れています。
視覚推論： MathVistaテストで83.1のリードを記録し、強力な産業レベルの論理能力を示しています。
マルチモーダル協働： トップクラスの言語能力（C-Eval 86.80）を維持しながら、低遅延の並行テキスト・音声生成およびカスタマイズ可能な音声クローンをサポートしています。

業界観察：物理世界におけるAIの基盤

長年にわたり、大規模モデルは言語中心のシステムでした。しかし、LongCat-Nextの意義は、物理情報がディスクリート化され、言語のようにモデリングできることが証明された点にあります。AIが統一された「母語」を持つようになると、ツールの呼び出しやコードの作成、複雑な図表の理解がより賢く、直感的になります。

現在、メイドは、LongCat-NextモデルおよびdNaViTトークナイザをすべてオープンソース化しています。この小さなサイズながら大きな潜在力を有するネイティブなディスクリートアーキテクチャは、開発者に現実世界を感知し、作用させるAIを構築するための重要なツールとなるでしょう。

大規模なオープンソース！ネイティブ多モーダル LongCat-Next を公開。視覚と音声をAIの母語に

世界のAI分野は「AI母語」技術変革を迎えている。現在の大規模モデルにおける「言語中心、外部視覚・音声」の寄せ集め構造に対し、チームは原生マルチモーダル大規模モデルLongCat-Nextと離散トークナイザーを発表・公開し、モーダル間の壁を打破し、AIが文字を処理するように物理世界を理解できるようにすることを目指している。核心は基盤アーキテクチャの再構築によるブレークスルーである。....

まず理解してから実行せよ！ビットでオープンソースの統一フレームワークBerniniがAI映像編集を運任せから解消

ビットスタックがオープンソースで動画生成と編集の統一フレームワークBerniniを開発しました。コアには「まず理解してから生成する」協調メカニズムが採用されており、従来モデルでは複雑なテキスト指示を正確に理解できず、画面の制御不能やフレーム間のちらつきなどの課題に直面していたことを解決し、主体の変形や背景の漂移などのブロックを突破しました。

プログラミングとGUIを両方カバー！Qwen3.7-Plus登場 11時間で自律的な開発サイクルによる本物のアプリを開発

アリババは、テキスト能力に視覚言語機能を強化したマルチモーダル大規模モデル「Qwen3.7-Plus」を発表。GUIとCLIの融合により、プロトタイプからソフトウェアエンジニアリングまでのエンドツーエンド自動化を実現し、Vision Arenaランキングで高い性能を示す。エージェント基盤として統合。.....

バイチュンオープンソースLance 3B：1つのモデルで図像理解と生成を同時に処理

バイチュンがオープンソースLanceを開発しました。このモデルは、わずか3Bのアクティブパラメータを持つ、ナイーブな統一マルチモーダル大規模モデルです。理解モデル（VLM）と生成モデル（DiT/ディフュージョン）の技術的境界を打ち破りました。極めて軽量ながらもすべての機能をカバーし、現在のAI業界でパラメータを増やしたり、組み立て式にモデルを作成する風潮に挑戦しています。これは技術革新の重要な突破です。

テンセントが身体的マルチモーダル大規模モデル HY-Embodied-0.5-X を発表し、ロボットのスマートなインタラクションをサポート

テンセント Robotics X とホンユアンチームは共同で HY-Embodied-0.5-X マルチモーダル大規模モデルを開源しました。このモデルはロボットの身体的タスクに特化して最適化されています。MoT-2Bアーキテクチャに基づき、「見る」「考える」「行う」能力を強化しており、細かい操作、空間推論、動作予測、リスク判断において優れた性能を発揮します。このシリーズには MoT-2B および MoE-32B の2つのバージョンがあり、現実的な環境でのロボットの知能的なインターフェースレベルを向上させることを目的としています。