“開口即角色”！阿里 Qwen3-TTS 登場：49 種音色 + 10 語言 9 方言，WER 碾壓主流商用模型

阿里巴巴正式推出 Qwen3家族最新成員 Qwen3-TTS，主打“零樣本、多角色、跨語言”語音合成。新模型在詞錯誤率（WER）國際基準上顯著優於主流商用引擎，同步上線阿里雲控制檯，開發者可0元調用100萬字符額度。

49種高品質音色，一鍵切換角色

從溫柔少女到方言大叔，Qwen3-TTS 內置49種官方音色，覆蓋旁白、客服、直播、教育等場景;支持10種語言 +9種中國方言（粵語、四川話、東北話等），同一文本可秒級切換音色，無需重新訓練。

文本→語氣→節奏，全自動“擬人化”

模型採用自迴歸聲學模型 + 韻律預測模塊，可根據標點、情感標籤自動升降調、插入停頓;在48kHz 採樣率下，MOS 得分達4.53，顯著高於行業平均4.1。

WER 顯著優於商用模型

在多語言語音合成公開測試集（MLS + Common Voice）上，Qwen3-TTS 英文 WER 降至2.8%，中文1.9%，較 Azure TTS 再降18% 與24%，刷新開源 SOTA。

教育場景“零樣本”落地

阿里雲同步發佈“一鍵朗讀”插件，教師上傳 PPT 即可自動生成帶方言的講解音頻，目前已在上海120所中小學試點，幫助學生用“家鄉話”聽寫單詞。

定價與入口

- 免費層:100萬字符/月，49種音色不限調用

- 付費層:0.8元/萬字符，支持 SSML 與實時流式合成

- 控制檯:console.aliyun.com → 人工智能 → 語音合成 → Qwen3-TTS（已全量）

下一步計劃

阿里透露，2025Q1將開放“10秒音色克隆”接口，用戶上傳短音頻即可生成私有說話人，並推出80kHz 超採樣版本，瞄準播客、有聲書與虛擬偶像市場。

行業觀察

TTS 賽道正從“可聽懂”走向“可角色化”。Qwen3-TTS 用開源+低價組合衝擊 Azure、AWS 商用池，同時給直播、客服、教育三大場景提供“零樣本”落地路徑。伴隨克隆音色與超採樣版本發佈，語音生成或將進入“人人都能配旁白”的新階段。AIbase 將持續跟蹤其克隆接口開放進度與商用案例。

項目地址：https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

摩根大通策略師戴維·萊博維茨指出，投資者對AI的態度正從盲目追捧轉向理性甄別。隨着AI成跨資產交易主題，華爾街必須學會分辨風險與回報。市場正細緻區分產業鏈各環節，判斷供給過剩與需求強勁的領域，告別單純狂熱。

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI