アリババグループのWanチームは、Wan2.2-Animate-14B(通称:Wan-Animate)モデルを正式にオープンソース化しました。この高精度なキャラクターアニメーション生成フレームワークは、AIビデオ分野で注目を集めています。このモデルは単一のモデル構造で「キャラクターのアニメーション生成」と「キャラクターの置き換え」の両方の課題を同時に解決し、ユーザーが1枚の画像または動画をアップロードするだけで、表情や動作の正確な移行と環境との融合を実現します。これにより、ビデオ制作のハードルが大幅に低下しました。モデルの重みと推論コードはHugging Faceプラットフォームにアップロードされ、世界中の開発者が無料で利用できます。

QQ20250922-160415.jpg

コア機能: 二つのタスクをワンクリックで完了  

Wan-Animateの核心は統一されたフレームワーク設計にあります。ユーザーはキャラクターの1枚の画像(静的な肖像画やアニメキャラクターなど)と参照用の動画を提供するだけで、高精度なアニメーション動画を生成できます。モデルは参照動画内の顔の表情や体の動き、そして複雑なダンスのシーケンスを正確にコピーし、キャラクターの元の特徴を保持し、ぼやけたり歪んだりする問題を防ぎます。

 

キャラクターのアニメーション生成モードでは、唇同期(lip sync)に特に長けており、静止画を動的なパフォーマンスに変えることができます。例えば、アニメキャラクターをスピーチや歌の動画に合わせて口を開けて話すようにすることができます。出力される動画は滑らかで自然であり、さまざまな言語や発音に対応しています。

キャラクターの置き換え機能はさらに革新的です。モデルは元の動画の中の人を新しいキャラクターにすばやく置き換えることができ、その場の照明、トーン、背景を自動的に調整して視覚の一貫性を保ちます。これは、短編ドラマや広告で簡単に「顔を変える」ことが可能になり、全体の物語を破壊することなく、迅速に出演者を変更できるようになります。

技術の特徴: 多モーダル融合による駆動  

Wan2.2シリーズの技術に基づいて、このモデルは骨格信号で体の動きを制御し、顔の顕示的特徴を抽出して表情を取得し、Relighting LoRAモジュールで環境の照明を最適化しています。従来のツールと比較して、唇同期の精度や全身の動作の再現性に優れています。初期テストでは、低品質な入力でもプロフェッショナルレベルの出力を得ることができました。オープンソースコミュニティからのフィードバックによると、ComfyUIなどのフレームワークでの統合可能性が非常に高く、すでに開発者がVTuber制作や独立映画アニメ用のカスタムワークフローを構築し始めています。

応用の可能性: 娯楽から商業への無限の可能性  

Wan-Animateのオープンソース公開は、AIビデオ生成における「ゲームチェンジャー」と見なされています。エンタメ分野では、ミュージックビデオ(MV)やショートビデオのクリエイターにとって大きな助けになります。一枚の挿絵で完全なダンスパフォーマンスを生成することが可能です。商業的な場面では、EC広告や企業研修などで、一人が複数の役を演じる事ができ、撮影コストを抑えることができます。今後、コミュニティによる最適化が進むことで、モデルは多人物動画のサポートにも拡張され、AIが映画産業にどのように浸透していくのかを促進するでしょう。

ただし、初期のユーザーは、VRAMの要件(14Bパラメータには高性能なGPUが必要)や一部のエッジケース(例: 2Dアニメーションの唇同期)においても改善の余地があると指摘しており、半年以内により完成度の高いバージョンがリリースされる予定です。

プロジェクトのアドレス:https://github.com/Wan-Video/Wan2.2