面壁智能推出 VoxCPM:新一代高擬真語音生成模型

在語音合成技術快速發展的背景下，面壁智能與清華大學深圳國際研究生院人機語音交互實驗室（THUHCSI）近日聯合發佈了一款新型語音生成模型 ——VoxCPM。這款模型以0.5B 的參數尺寸，致力於爲用戶提供高質量、自然的語音合成體驗。

VoxCPM 的推出標誌着高擬真語音生成領域的又一里程碑。該模型在自然度、音色相似度及韻律表現力等關鍵指標上，均達到了行業領先水平。通過零樣本聲音克隆技術，VoxCPM 能夠以極少的數據，生成用戶獨特的聲音，從而實現個性化的語音合成。這一技術進步爲語音生成的應用場景帶來了更多可能性，尤其是在個性化語音助手、遊戲角色配音等領域。

據悉，VoxCPM 已在 GitHub、Hugging Face 等平臺開源，併爲開發者提供了線上體驗平臺，便於用戶探索和使用其強大功能。模型在權威語音合成評測榜單 Seed-TTS-EVAL 中表現出色，尤其是在詞錯誤率和音色相似度方面取得了極低的錯誤率，展示了其卓越的推理效率。在一張 NVIDIA RTX4090顯卡上，VoxCPM 的實時因子（RTF）達到約0.17，滿足了高質量實時交互的需求。

VoxCPM 不僅在技術性能上有所突破，其在音質和情感表達方面也表現出色。模型能夠根據文本內容智能選擇合適的聲音、腔調和韻律，模擬出與真人無異的聽感。無論是氣象播報、英雄演講，還是方言主播，VoxCPM 都能精準再現，提供沉浸式的聽覺體驗。

此外，VoxCPM 的技術架構基於最新的擴散自迴歸語音生成模型，融合了層次化語言建模和局部擴散生成的連續表徵，顯著提升了生成語音的表現力與自然度。該模型的核心架構包括多個模塊，協同工作，實現了高效的 “語義 - 聲學” 生成過程。

🔗 Github:

https://github.com/OpenBMB/VoxCPM/

🔗 Hugging Face:

https://huggingface.co/openbmb/VoxCPM-0.5B

🔗 ModelScope:

https://modelscope.cn/models/OpenBMB/VoxCPM-0.5B

🔗 PlayGround體驗:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

🔗 音頻樣例頁面地址:

https://openbmb.github.io/VoxCPM-demopage

首包延遲300ms、支持20種方言:通義千問Qwen-Audio-3.0-TTS正式開放

阿里通義千問發佈新一代實時語音合成模型Qwen-Audio-3.0-TTS，實現從“能說話”到“會表達”的跨越。Plus版本在Artificial Analysis Speech Arena排名全球第一，超越Gemini3.1TTS等主流模型。雙版本中Flash版主打低延遲實時交互（首包約300ms），Plus版專攻高質量自然度與音色還原。

面壁智能推出 VoxCPM:新一代高擬真語音生成模型

相關推薦

首包延遲300ms、支持20種方言:通義千問Qwen-Audio-3.0-TTS正式開放

小米發佈全鏈路語音大模型 MiMo-V2.5，TTS 可“一句話生成新音色”，ASR 開源支持方言與多語混說

Qwen3-TTS 升級：多樣化聲音讓語音合成更自然

“開口即角色”！阿里 Qwen3-TTS 登場：49 種音色 + 10 語言 9 方言，WER 碾壓主流商用模型

微軟開源 VibeVoice-1.5B 模型：90 分鐘超長語音合成新突破