正文

音頻驅動生成面部視頻技術JoyVASA 支持小動物角色

發布於AI新閒資訊

時間 :Nov 25, 2024

閱讀 :1分鐘

近日，研究人員提出了一種名爲 JoyVASA 的新技術，旨在提升音頻驅動的圖像動畫效果。隨着深度學習和擴散模型的不斷髮展，音頻驅動的人像動畫在視頻質量和嘴形同步精度方面取得了顯著進展。然而，現有模型的複雜性增加了訓練和推理的效率問題，同時也限制了視頻的時長和幀間連續性。

JoyVASA 採用了兩階段的設計，第一階段引入了一種解耦的面部表徵框架，將動態面部表情與靜態的三維面部表徵分開。

這種分離使得系統能夠將任何靜態的三維面部模型與動態動作序列相結合，從而生成更長的動畫視頻。在第二階段，研究團隊訓練了一種擴散變換器，能夠直接從音頻線索中生成動作序列，這一過程與角色身份無關。最後，基於第一階段訓練的生成器將三維面部表徵和生成的動作序列作爲輸入，渲染出高質量的動畫效果。

值得注意的是，JoyVASA 不僅限於人像動畫，還能夠無縫地動畫化動物面部。這一模型在一個混合數據集上進行訓練，結合了私有的中文數據和公共的英文數據，展現出良好的多語言支持能力。實驗結果證明了這一方法的有效性，未來的研究將重點提升實時性能和細化表情控制，進一步擴展這一框架在圖像動畫中的應用。

JoyVASA 的出現標誌着音頻驅動動畫技術的一次重要突破，推動了在動畫領域的新可能性。

項目入口：https://jdh-algo.github.io/JoyVASA/

劃重點:
🎨 JoyVASA 技術通過解耦面部表情與三維模型，實現更長的動畫視頻生成。
🔊 該技術能夠根據音頻線索生成動作序列，具有人物與動物動畫的雙重能力。
🌐 JoyVASA 在中英文數據集上訓練，具備多語言支持，爲全球用戶提供服務。

全球AI醫療影像市場爆發在即:2032年規模將突破130億美元

全球AI醫療影像市場預計從2024年16億美元增至2032年130億美元，年複合增長率29%。增長主因慢性疾病增多推高精準診斷需求，以及深度學習等技術突破提升診斷效率，加上政府與資本支持推動市場擴張。

Nov 12, 2025

103.8k

谷歌的 TPU 業務或將衝擊 9000 億美元市場，挑戰英偉達

谷歌正通過推廣自家張量處理單元（TPU）佈局AI硬件市場，近期與小型雲服務商合作，試圖在英偉達主導的市場中開闢新空間。

Sep 9, 2025

153.6k

百度文心大模型X1.1發佈：深度學習能力再升級

百度在WAVE SUMMIT大會上發佈文心大模型X1.1，該模型在事實性、指令遵循和智能體表現方面顯著提升。個人用戶可通過文心一言官網和文小言APP體驗，企業客戶可通過百度智能雲千帆平臺使用。

Sep 9, 2025

192.9k

英偉達完成從遊戲芯片商到AI巨頭的戰略轉型

全球半導體巨頭英偉達(NVIDIA)近日宣佈在波士頓設立量子研究中心，...

Jun 23, 2025

172.3k

微軟開源 Aurora AI 氣象模型，助力天氣與環境監測

近日，微軟研究院宣佈開源其 Aurora AI 氣象預報模型。這一模型結合了深度學習和大規模數據處理技術，旨在爲氣象預報和環境監測提供精準的解決方案。Aurora AI 不僅能夠高效預測天氣，還可以經過微調後應用於洋流和空氣質量監測等多個領域。據微軟團隊在《Nature》期刊上發表的研究論文，Aurora 模型使用了超過100萬小時的多來源氣象與環境數據進行訓練。這些數據來源包括衛星、雷達、氣象站和計算機模擬等。微軟的研究表明，在2022至2023年間的全球熱帶氣旋預測中，Aurora 模型的軌跡預

May 28, 2025

220.2k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご