近日,研究人員提出了一種名爲 JoyVASA 的新技術,旨在提升音頻驅動的圖像動畫效果。隨着深度學習和擴散模型的不斷髮展,音頻驅動的人像動畫在視頻質量和嘴形同步精度方面取得了顯著進展。然而,現有模型的複雜性增加了訓練和推理的效率問題,同時也限制了視頻的時長和幀間連續性。

JoyVASA 採用了兩階段的設計,第一階段引入了一種解耦的面部表徵框架,將動態面部表情與靜態的三維面部表徵分開。

這種分離使得系統能夠將任何靜態的三維面部模型與動態動作序列相結合,從而生成更長的動畫視頻。在第二階段,研究團隊訓練了一種擴散變換器,能夠直接從音頻線索中生成動作序列,這一過程與角色身份無關。最後,基於第一階段訓練的生成器將三維面部表徵和生成的動作序列作爲輸入,渲染出高質量的動畫效果。

image.png

值得注意的是,JoyVASA 不僅限於人像動畫,還能夠無縫地動畫化動物面部。這一模型在一個混合數據集上進行訓練,結合了私有的中文數據和公共的英文數據,展現出良好的多語言支持能力。實驗結果證明了這一方法的有效性,未來的研究將重點提升實時性能和細化表情控制,進一步擴展這一框架在圖像動畫中的應用。

JoyVASA 的出現標誌着音頻驅動動畫技術的一次重要突破,推動了在動畫領域的新可能性。

項目入口:https://jdh-algo.github.io/JoyVASA/

劃重點:

🎨 JoyVASA 技術通過解耦面部表情與三維模型,實現更長的動畫視頻生成。  

🔊 該技術能夠根據音頻線索生成動作序列,具有人物與動物動畫的雙重能力。  

🌐 JoyVASA 在中英文數據集上訓練,具備多語言支持,爲全球用戶提供服務。