在語音合成技術快速發展的背景下,面壁智能與清華大學深圳國際研究生院人機語音交互實驗室(THUHCSI)近日聯合發佈了一款新型語音生成模型 ——VoxCPM。這款模型以0.5B 的參數尺寸,致力於爲用戶提供高質量、自然的語音合成體驗。

VoxCPM 的推出標誌着高擬真語音生成領域的又一里程碑。該模型在自然度、音色相似度及韻律表現力等關鍵指標上,均達到了行業領先水平。通過零樣本聲音克隆技術,VoxCPM 能夠以極少的數據,生成用戶獨特的聲音,從而實現個性化的語音合成。這一技術進步爲語音生成的應用場景帶來了更多可能性,尤其是在個性化語音助手、遊戲角色配音等領域。

QQ20250919-103112.png

據悉,VoxCPM 已在 GitHub、Hugging Face 等平臺開源,併爲開發者提供了線上體驗平臺,便於用戶探索和使用其強大功能。模型在權威語音合成評測榜單 Seed-TTS-EVAL 中表現出色,尤其是在詞錯誤率和音色相似度方面取得了極低的錯誤率,展示了其卓越的推理效率。在一張 NVIDIA RTX4090顯卡上,VoxCPM 的實時因子(RTF)達到約0.17,滿足了高質量實時交互的需求。

VoxCPM 不僅在技術性能上有所突破,其在音質和情感表達方面也表現出色。模型能夠根據文本內容智能選擇合適的聲音、腔調和韻律,模擬出與真人無異的聽感。無論是氣象播報、英雄演講,還是方言主播,VoxCPM 都能精準再現,提供沉浸式的聽覺體驗。

此外,VoxCPM 的技術架構基於最新的擴散自迴歸語音生成模型,融合了層次化語言建模和局部擴散生成的連續表徵,顯著提升了生成語音的表現力與自然度。該模型的核心架構包括多個模塊,協同工作,實現了高效的 “語義 - 聲學” 生成過程。

🔗 Github:

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face: 

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope: 

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 PlayGround體驗:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 音頻樣例頁面地址:

https://openbmb.github.io/VoxCPM-demopage