最近、バイトダンス(ByteDance Research)はそのネイティブな統一マルチモーダル大規模モデル「Lance」を正式にオープンソース化しました。

現在のAI業界では数百億乃至は数兆のパラメータを積み重ねたり、「ブロックを組み合わせる」ことで大規模モデルを作成する傾向がありますが、Lanceの登場はそのような風潮に対して大きな衝撃を与えます。30億のパラメータにとどまりながら、すべての機能をカバーし、長年存在していた「理解モデル(VLM)」と「生成モデル(DiT/Diffusion)」の技術的な壁を打ち破ったのです。

image.png

注目ポイント:

  • ネイティブな統一: 「つなぎ合わせ」を拒否し、ゼロから訓練することで、画像・動画の理解、生成、クロスモーダル編集を一つのモデルに統合しています。

  • 万能な実行: 1つのモデルで文/視覚の理解(X→T)、図の生成/編集(X→I)、動画の生成/編集(X→V)という3つの主要な出力タスクを完璧に完了できます。

  • オープンソースで無料: 非常に親しみやすいApache2.0ライセンスを使用しており、重みはすでにHugging Faceに公開されています。一般人レベルの128枚のA100GPUの予算でも全プロセスを実行可能です。

技術解説:どうやって逆の要件を「同期させたのか?」

従来のAIアーキテクチャでは、「理解」と「生成」は対立する矛盾でした。理解タスクにはノイズを除去し、高次の意味特徴を抽出する必要がある一方、生成タスクではテクスチャや幾何構造、時系列の動的表現などの低次連続表現を正確に捉える必要があります。

この業界で広く知られている難題を克服するために、Lanceは非常に巧妙な「共通のコンテキスト + 能力分離並列設計」を導入しました。

1. 統一された交差シーケンスと二流専門家アーキテクチャ

すべてのテキスト、画像、動画の入力がモデルに入る前に、まず交差シーケンスに分割されます。その後、このシーケンスは二流専門家アーキテクチャ(Dual-Stream MoE)に送られ、それぞれが「理解」および「生成」専用の専門家ルーティングが役割分担を行い、能力の衝突を完全に解決します。

  • 理解側: テキストトークンと視覚入力はそれぞれQwen2.5-VLの埋め込み層とViTエンコーダーに依存し、高次の意味を持つ視覚的なトークンを正確に抽出します。

  • 生成側: 視覚入力はWan2.2の強力な3D因果VAE圧縮エンコーダーにより処理され、空間方向に16倍、時間方向に4倍のダウンサンプリングが行われ、最も細かい動的な連続表現が保持されます。

2. MaPE(モーダル感知回転位置符号化)

同じ長いシーケンス内で画像、文章、動画などの複数の視覚的なトークンが混在すると、「境界の混乱」による幻覚が発生しやすくなります。Lanceは独自のMaPE機構を導入し、異なるモーダルグループに固定された時間オフセットを追加します。この巧みな設計により、画像や動画内の空間構造や時間順序を損なうことなく、極めて高い空間的・時間的な境界認識力を持っています。

[統一された交差シーケンス] ───► [MaPE モーダル境界隔離] ───► [二流専門家アーキテクチャ (MoE)]

4段階の極限的なトレーニング:128枚のGPUで行う「効率的な戦い」

大手企業が数千枚のGPUを使って無駄にコストをかける「暴力美学」に比べて、Lanceのトレーニング過程は非常に「財務責任感」が強いです。全体のライフサイクルは最大128枚のGPU予算以内に抑えられ、4つの段階に分けて丁寧に進められます。

  • 第1段階:初期トレーニング(1.5T Tokens) —— 1Bの画像・文章ペアと140Mのビデオテキストペアを大量に学習し、マルチモーダルの基盤を固めます。

  • 第2段階:継続的なトレーニング(300B Tokens) —— 編集、主体駆動型生成、マルチモーダル理解データを導入し、マルチタスクの協調効果を活性化します。

  • 第3段階:監督微調整 SFT(72B Tokens) —— 人間の指示を大量に注入し、指示の遵守と視覚的なアイデンティティ(ID)の一貫性を徹底的に追求します。

  • 第4段階:強化学習 RL(GRPOアルゴリズム) —— グループ相対的ポリシー最適化を採用し、珍しくPaddleOCRを報酬モデル(Reward Model)として使用

記録的な成果:3Bの戦士が7Bの巨獣を倒す

タスク間のデータ協調効果(モデルが生成を学ぶ際に理解を深め、理解を学ぶ際に生成の空間感を反哺する)により、3BサイズのLanceはさまざまなハードコアなベンチマークテストで驚異的な性能を達成しました。

  • 動画生成(VBench): 85.11点を獲得!これは同種の全能モデルTUNA(84.06点)を下し、HunyuanVideo(83.33点)やWan2.1-T2V(83.69点)など純粋な動画生成モデルをも上回りました。

  • 画像生成(GenEval): 全体得点は0.90となり、世界中のオープンソースモデルの中で最上位にランクインしました。

  • 動画理解(MVBench): 62.0点を獲得し、サイズが倍の専門的な理解モデルShow-o2(7B、55.7点)を大幅に後ろに押しやりました。

業界の変革:マルチモーダルアプリケーションの展開コストが急激に低下

Lanceのオープンソース化は、特に現在人気の高いAIショートドラマ、スマートエージェント(Agent)の協働、インタラクティブメディアなどの分野において、業界に大きな打撃を与えることになります。

過去には、シナリオを理解し、スクリーンショットを生成し、フィードバックに応じてリアルタイムで画面を修正しながらキャラクターの一貫性を維持できるAIツールを開発するには、バックエンドでいくつもの大規模モデルを同時に起動・管理・結合しなければなりませんでした(一つはVLMの意味、もう一つはDiffusion画像の操作、さらに第三は時系列動画の生成)。これによりシステムの遅延が起こり、多モデル間のパイプの整合性を調整するだけで精神的に崩れてしまうことがありました。

今では、Lance3Bは一つの脳で「左目に見、右目に編集、両手で創造」を実現しています。