阿里通義千問重磅開源 Qwen3-TTS：97ms超低延遲語音合成，3秒克隆+一句話設計音色，徹底顛覆實時AI語音！

阿里通義千問團隊昨晚正式開源了 Qwen3-TTS 系列語音生成模型家族，這一重磅更新迅速席捲開源社區，被視爲語音合成領域的重大突破。該系列採用端到端架構，支持秒級音色克隆、自然語言音色設計以及實時流式輸出，極大降低了實時應用的門檻。

Dual-Track雙軌架構實現極致低延遲

Qwen3-TTS 核心創新在於Dual-Track雙軌混合流式生成機制，結合離散多碼本語言模型，直接端到端建模語音，避免了傳統級聯架構（如LM+DiT）的信息瓶頸。實際測試中，端到端延遲低至97ms，輸入僅1個字即可輸出首包音頻。這種極致響應速度，使其非常適合直播互動、實時翻譯、AI智能客服等對時延敏感的場景。

3秒極速克隆 + 跨語言/方言零損失遷移

語音克隆能力尤爲驚豔:僅需3秒參考音頻，即可實現高保真零樣本音色復刻。克隆後的音色支持跨語種無縫遷移，中文音色可直接用於說英語、日語、韓語、德語、法語、俄語、西班牙語、葡萄牙語、意大利語等10種主流語言，同時保留原音色特徵。更進一步，還能自然輸出四川話、北京話等多種中文方言，口音、神韻高度還原，爲多語言內容創作和地方化應用打開新想象空間。

一句話“憑空”設計全新音色

除了克隆，Qwen3-TTS 還提供強大的Voice Design功能，用戶通過自然語言指令即可自定義聲音，例如“用溫柔鼓勵的成熟女聲講述故事”或“高亢興奮的年輕男性解說遊戲”，模型能自動調整語調、情感、節奏，生成高度個性化的表達。這種“所想即所聽”的控制能力，在有聲書製作中尤爲實用——一人即可分飾多角，情緒起伏、方言切換樣樣精通，極大提升沉浸感和生產效率。

1.7B與0.6B雙尺寸，性能與效率自由取捨

Qwen3-TTS 家族提供兩種參數規模:

-1.7B模型:性能最強，控制能力突出，適合對音質和表現力要求極高的雲端場景;

-0.6B模型:在保持優秀合成質量的前提下，實現更佳的推理效率和更低的資源佔用，適合邊緣設備或高併發部署。

官方已將完整系列（包括Base、VoiceDesign、CustomVoice等）開源至GitHub和Hugging Face，支持全參數微調，開發者可輕鬆構建品牌專屬語音形象。

隨着Qwen3-TTS的開源，實時、個性化、多語言語音AI的門檻大幅降低。無論是內容創作者、開發者還是企業級應用，都將迎來新一輪語音交互革命。

項目地址：https://github.com/QwenLM/Qwen3-TTS

阿里通義千問重磅開源 Qwen3-TTS：97ms超低延遲語音合成，3秒克隆+一句話設計音色，徹底顛覆實時AI語音！

相關推薦

肯德基聯手阿里千問大模型上線AI點餐助手“小K”，支持全流程語音閉環

微信封殺元寶？騰訊元寶紅包鏈接在微信內被攔截

破解高退貨率難題：微盟推出“AI試衣”助力零售電商智能化升級

阿里發佈超強語音合成模型 Qwen3-TTS，49 種音色滿足你的聲音需求！

Qwen3-TTS 升級：多樣化聲音讓語音合成更自然