阿里通義實驗室語音團隊今日宣佈推出兩款革命性的語音生成模型:Fun-CosyVoice3.5 與 Fun-AudioGen-VD。這兩款模型最大的亮點在於支持“FreeStyle”指令,用戶無需複雜的參數調節,僅需通過一句自然語言描述,即可精準控制聲音的表達風格或從零構建複雜的音頻場景。

兩款模型的功能側重各有不同:
Fun-CosyVoice3.5:多語種復刻與精細化控制
該模型是此前 CosyVoice 的升級版,核心突破在於對語音表達的“理解力”。
指令式生成:用戶可以輸入“語氣堅定點”、“語速放慢並帶點情緒起伏”等指令,模型會實時調整輸出效果。
語種擴容:新增支持泰語、印尼語、葡萄牙語及越南語,在13種語言的轉寫準確率(WER)和音色相似度上保持業內領先。
生僻字優化:通過專項調優,生僻字讀錯率從15.2% 大幅降至 5.3%。
性能提升:首包延遲降低 35%,極大提升了實時交互場景下的流暢度。
Fun-AudioGen-VD:全場景聲音設計
該模型更像是一個“聲音導演”,能夠根據描述生成“人物 + 場景”的一體化音頻。
音色定製:支持指定性別、年齡、口音,甚至細化到“沙啞、磁性、低沉”等特質。
情緒與角色:能夠模擬客服、播音員、孩童等角色,甚至能表現出“表面鎮定但內心顫抖”等複雜心理狀態。
環境沉浸感:支持疊加背景音(如戰場轟鳴、咖啡館喧囂)和空間特效(如大教堂回聲、水下聽感),實現全方位的空間模擬。
通義實驗室表示,這兩款模型的發佈將進一步降低高品質語音創作的門檻,爲播客、遊戲開發、影視後期等領域提供強大的 AI 助力。
