阿里通義千問團隊昨晚正式開源了 Qwen3-TTS 系列語音生成模型家族,這一重磅更新迅速席捲開源社區,被視爲語音合成領域的重大突破。該系列採用端到端架構,支持秒級音色克隆、自然語言音色設計以及實時流式輸出,極大降低了實時應用的門檻。

image.png

Dual-Track雙軌架構實現極致低延遲

Qwen3-TTS 核心創新在於Dual-Track雙軌混合流式生成機制,結合離散多碼本語言模型,直接端到端建模語音,避免了傳統級聯架構(如LM+DiT)的信息瓶頸。實際測試中,端到端延遲低至97ms,輸入僅1個字即可輸出首包音頻。這種極致響應速度,使其非常適合直播互動、實時翻譯、AI智能客服等對時延敏感的場景。

3秒極速克隆 + 跨語言/方言零損失遷移

語音克隆能力尤爲驚豔:僅需3秒參考音頻,即可實現高保真零樣本音色復刻。克隆後的音色支持跨語種無縫遷移,中文音色可直接用於說英語、日語、韓語、德語、法語、俄語、西班牙語、葡萄牙語、意大利語等10種主流語言,同時保留原音色特徵。更進一步,還能自然輸出四川話、北京話等多種中文方言,口音、神韻高度還原,爲多語言內容創作和地方化應用打開新想象空間。

一句話“憑空”設計全新音色

除了克隆,Qwen3-TTS 還提供強大的Voice Design功能,用戶通過自然語言指令即可自定義聲音,例如“用溫柔鼓勵的成熟女聲講述故事”或“高亢興奮的年輕男性解說遊戲”,模型能自動調整語調、情感、節奏,生成高度個性化的表達。這種“所想即所聽”的控制能力,在有聲書製作中尤爲實用——一人即可分飾多角,情緒起伏、方言切換樣樣精通,極大提升沉浸感和生產效率。

1.7B與0.6B雙尺寸,性能與效率自由取捨

Qwen3-TTS 家族提供兩種參數規模:

-1.7B模型:性能最強,控制能力突出,適合對音質和表現力要求極高的雲端場景;

-0.6B模型:在保持優秀合成質量的前提下,實現更佳的推理效率和更低的資源佔用,適合邊緣設備或高併發部署。

官方已將完整系列(包括Base、VoiceDesign、CustomVoice等)開源至GitHub和Hugging Face,支持全參數微調,開發者可輕鬆構建品牌專屬語音形象。

隨着Qwen3-TTS的開源,實時、個性化、多語言語音AI的門檻大幅降低。無論是內容創作者、開發者還是企業級應用,都將迎來新一輪語音交互革命。

項目地址:https://github.com/QwenLM/Qwen3-TTS