近日,阿里巴巴雲計算的 Qwen 團隊發佈了兩款全新的人工智能模型,旨在通過文本指令生成或克隆聲音。其中,Qwen3-TTS-VD-Flash 模型允許用戶根據詳細描述生成聲音,用戶可以精確定義聲音的特徵,如情感和說話節奏。

例如,用戶可以請求生成一個 “中年男性,洪亮的男中音 —— 充滿活力的廣告解說,快速的語速,誇張的音調變化,充滿銷售魅力的聲音”。根據製造商的說法,該模型在性能上超過了 OpenAI 最近推出的 GPT-4o mini-tts API。

第二款模型 Qwen3-TTS-VC-Flash,則可以僅通過三秒的音頻複製聲音,並能在十種語言中進行復現。Qwen 聲稱,該模型的錯誤率低於競爭對手,例如 Elevenlabs 或 MiniMax。

此外,該 AI 還能夠處理複雜的文本,模仿動物聲音,並從錄音中提取聲音。兩款模型均可通過阿里巴巴雲的 API 訪問,用戶還可以在 Hugging Face 平臺上嘗試設計模型和克隆模型的演示。

劃重點:  

🌟 新款 Qwen 模型支持通過文本描述生成和克隆聲音。  

🎤 Qwen3-TTS-VC-Flash 可在三秒內複製聲音,支持十種語言。  

🚀 模型表現優於競爭對手,適用於處理複雜文本及聲音模仿。