阿里巴巴推出新款 Qwen 模型，三秒音頻即可克隆聲音

近日，阿里巴巴雲計算的 Qwen 團隊發佈了兩款全新的人工智能模型，旨在通過文本指令生成或克隆聲音。其中，Qwen3-TTS-VD-Flash 模型允許用戶根據詳細描述生成聲音，用戶可以精確定義聲音的特徵，如情感和說話節奏。

例如，用戶可以請求生成一個 “中年男性，洪亮的男中音 —— 充滿活力的廣告解說，快速的語速，誇張的音調變化，充滿銷售魅力的聲音”。根據製造商的說法，該模型在性能上超過了 OpenAI 最近推出的 GPT-4o mini-tts API。

第二款模型 Qwen3-TTS-VC-Flash，則可以僅通過三秒的音頻複製聲音，並能在十種語言中進行復現。Qwen 聲稱，該模型的錯誤率低於競爭對手，例如 Elevenlabs 或 MiniMax。

此外，該 AI 還能夠處理複雜的文本，模仿動物聲音，並從錄音中提取聲音。兩款模型均可通過阿里巴巴雲的 API 訪問，用戶還可以在 Hugging Face 平臺上嘗試設計模型和克隆模型的演示。

劃重點:
🌟 新款 Qwen 模型支持通過文本描述生成和克隆聲音。
🎤 Qwen3-TTS-VC-Flash 可在三秒內複製聲音，支持十種語言。
🚀 模型表現優於競爭對手，適用於處理複雜文本及聲音模仿。

阿里巴巴將於28日舉辦玄鐵RISC-V生態大會與DeepSeek有關

阿里巴巴集團在發佈最新財報後，宣佈將於2月28日舉辦一場重要論壇，由旗下達摩院主辦，主題爲“2025玄鐵RISC-V生態大會”。根據官方公佈的議程，達摩院首席科學家將在會上發表題爲《從Deepseek創新看RISC-V的機遇》的主題演講，同時還將發佈玄鐵RISC-V系列芯片。值得注意的是，阿里巴巴集團首席執行官吳泳銘於昨日上午宣佈，公司計劃在未來三年內投入超過3800億元人民幣，用於加強雲計算和硬件基礎設施建設，這一投入總額超過了過去十年在該領域的總和。這一舉措表明，阿里巴巴將全

阿里巴巴推出新款 Qwen 模型，三秒音頻即可克隆聲音

相關推薦

阿里巴巴將於28日舉辦玄鐵RISC-V生態大會與DeepSeek有關

Lima v2.0 重磅發佈：從容器利器進化爲安全 AI 工作流的“隱形盾牌”

Kargo 獲4200萬美元融資，AI 攝像頭正重塑物流裝卸

阿里通義開源語音交互大模型Fun-Audio-Chat-8B！超低延遲，能讀懂情緒

Google與OpenAI繪圖工具遭利用，可一鍵生成女性不雅深僞照片

阿里巴巴推出新款 Qwen 模型，三秒音頻即可克隆聲音

相關推薦

阿里巴巴將於28日舉辦玄鐵RISC-V生態大會 與DeepSeek有關

​Lima v2.0 重磅發佈：從容器利器進化爲安全 AI 工作流的“隱形盾牌”

Kargo 獲4200萬美元融資，AI 攝像頭正重塑物流裝卸

阿里通義開源語音交互大模型Fun-Audio-Chat-8B！超低延遲，能讀懂情緒

​Google與OpenAI繪圖工具遭利用，可一鍵生成女性不雅深僞照片

阿里巴巴將於28日舉辦玄鐵RISC-V生態大會與DeepSeek有關

Lima v2.0 重磅發佈：從容器利器進化爲安全 AI 工作流的“隱形盾牌”

Google與OpenAI繪圖工具遭利用，可一鍵生成女性不雅深僞照片