阿里巴巴正式推出 Qwen3家族最新成員 Qwen3-TTS,主打“零樣本、多角色、跨語言”語音合成。新模型在詞錯誤率(WER)國際基準上顯著優於主流商用引擎,同步上線阿里雲控制檯,開發者可0元調用100萬字符額度。

 49種高品質音色,一鍵切換角色  

從溫柔少女到方言大叔,Qwen3-TTS 內置49種官方音色,覆蓋旁白、客服、直播、教育等場景;支持10種語言 +9種中國方言(粵語、四川話、東北話等),同一文本可秒級切換音色,無需重新訓練。

image.png

文本→語氣→節奏,全自動“擬人化”  

模型採用自迴歸聲學模型 + 韻律預測模塊,可根據標點、情感標籤自動升降調、插入停頓;在48kHz 採樣率下,MOS 得分達4.53,顯著高於行業平均4.1。

WER 顯著優於商用模型  

在多語言語音合成公開測試集(MLS + Common Voice)上,Qwen3-TTS 英文 WER 降至2.8%,中文1.9%,較 Azure TTS 再降18% 與24%,刷新開源 SOTA。

教育場景“零樣本”落地  

阿里雲同步發佈“一鍵朗讀”插件,教師上傳 PPT 即可自動生成帶方言的講解音頻,目前已在上海120所中小學試點,幫助學生用“家鄉話”聽寫單詞。

定價與入口  

- 免費層:100萬字符/月,49種音色不限調用  

- 付費層:0.8元/萬字符,支持 SSML 與實時流式合成  

- 控制檯:console.aliyun.com → 人工智能 → 語音合成 → Qwen3-TTS(已全量)

下一步計劃  

阿里透露,2025Q1將開放“10秒音色克隆”接口,用戶上傳短音頻即可生成私有說話人,並推出80kHz 超採樣版本,瞄準播客、有聲書與虛擬偶像市場。

行業觀察  

TTS 賽道正從“可聽懂”走向“可角色化”。Qwen3-TTS 用開源+低價組合衝擊 Azure、AWS 商用池,同時給直播、客服、教育三大場景提供“零樣本”落地路徑。伴隨克隆音色與超採樣版本發佈,語音生成或將進入“人人都能配旁白”的新階段。AIbase 將持續跟蹤其克隆接口開放進度與商用案例。

項目地址:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo