最近、研究者らはJoyVASAという新しい技術を発表しました。これは、音声駆動による画像アニメーションの効果を高めることを目的としています。深層学習と拡散モデルの進歩に伴い、音声駆動による人物アニメーションは、ビデオ品質と口パクの精度において著しい進歩を遂げてきました。しかし、既存のモデルは複雑であるため、訓練と推論の効率に問題があり、ビデオの長さとフレーム間の連続性にも制限がありました。
JoyVASAは二段階のデザインを採用しています。第一段階では、動的な顔の表情と静的な3次元顔モデルを分離する、解耦合された顔表現フレームワークを導入しました。
この分離により、システムは任意の静的な3次元顔モデルと動的な動作シーケンスを組み合わせ、より長いアニメーションビデオを生成できます。第二段階では、研究チームは、音声の手がかりから直接動作シーケンスを生成できる拡散トランスフォーマーを訓練しました。このプロセスは、キャラクターのアイデンティティとは無関係です。最後に、第一段階で訓練されたジェネレーターは、3次元顔モデルと生成された動作シーケンスを入力として、高品質のアニメーション効果をレンダリングします。

注目すべきは、JoyVASAは人物アニメーションに限定されず、動物の顔もシームレスにアニメーション化できることです。このモデルは、独自の中国語データと公開されている英語データの両方を組み合わせた混合データセットで訓練されており、優れた多言語サポート能力を示しています。実験結果は、この方法の有効性を証明しています。今後の研究では、リアルタイム性能の向上と表情制御の精密化に重点を置き、画像アニメーションにおけるこのフレームワークの適用範囲をさらに拡大していく予定です。
JoyVASAの登場は、音声駆動アニメーション技術における重要なブレークスルーであり、アニメーション分野における新たな可能性を切り開きました。
プロジェクト入口:https://jdh-algo.github.io/JoyVASA/
要点:
🎨 JoyVASA技術は、顔の表情と3次元モデルを分離することで、より長いアニメーションビデオの生成を実現します。
🔊 この技術は、音声の手がかりに基づいて動作シーケンスを生成でき、人物と動物のアニメーションの両方の能力を備えています。
🌐 JoyVASAは、中国語と英語のデータセットで訓練されており、多言語サポートを備え、世界中のユーザーにサービスを提供します。
