最近、トロント大学とベクトル研究所の研究チームが、任意枚数の参照画像からリアルな4Dアバターを生成できる新しい技術、CAP4Dモデルを発表しました。これは、変形多視点拡散モデル(MMDM)に基づいた技術です。
このモデルは二段階の手法を採用しています。まず、MMDMを使って様々な視点と表情の画像を生成し、次にこれらの生成画像と参照画像を組み合わせることで、リアルタイムで制御可能な4Dアバターを再構築します。
CAP4Dのワークフローでは、ユーザーは任意枚数の参照画像を入力できます。これらの画像は、変分オートエンコーダーの潜在空間にエンコードされます。次に、既存の顔トラッキング技術であるFlowFaceを使用して、各参照画像の3D変形モデル(FLAME)を推定し、頭部の姿勢、表情、カメラの視点などの情報を抽出します。MMDMは、ランダムサンプリングによって、各反復生成プロセスにおいて、入力された参照画像を組み合わせ、複数の異なる画像を生成します。

研究チームは、単一参照画像、少数の参照画像、そしてテキストプロンプトやアートワークからのアバター生成というより困難なシナリオを含む、CAP4Dによって生成された様々なアバターを公開しました。複数の参照画像を使用することで、単一の画像では見えないディテールや形状を復元し、再構築精度が向上します。さらに、CAP4Dは既存の画像編集モデルと組み合わせることができ、ユーザーは生成されたアバターの外見や照明を編集できます。

アバターの表現力をさらに高めるために、CAP4Dは生成された4Dアバターと音声駆動アニメーションモデルを組み合わせ、音声駆動のアニメーション効果を実現できます。これにより、アバターは静的な視覚効果だけでなく、音声を通じてユーザーと動的にインタラクトすることも可能になり、仮想アバターアプリケーションの新たな領域を切り開きます。
要点:
🌟 CAP4Dモデルは、任意枚数の参照画像から高品質な4Dアバターを生成でき、二段階のワークフローを採用しています。
🖼️ この技術は、様々な視点のアバターを生成でき、画像の再構築精度とディテールの表現が大幅に向上します。
🎤 CAP4Dは音声駆動アニメーションモデルと組み合わせることで、音声駆動のダイナミックなアバターを実現し、仮想アバターの応用範囲を広げます。
