正文

一句話即刻“調教”音色！阿里通義發佈語音雙模型：支持 FreeStyle 自然語言控制

aibase

發布於AI新閒資訊

時間 :Mar 2, 2026

閱讀 :1分鐘

阿里通義實驗室語音團隊今日宣佈推出兩款革命性的語音生成模型:Fun-CosyVoice3.5 與 Fun-AudioGen-VD。這兩款模型最大的亮點在於支持“FreeStyle”指令，用戶無需複雜的參數調節，僅需通過一句自然語言描述，即可精準控制聲音的表達風格或從零構建複雜的音頻場景。

兩款模型的功能側重各有不同:

Fun-CosyVoice3.5:多語種復刻與精細化控制

該模型是此前 CosyVoice 的升級版，核心突破在於對語音表達的“理解力”。

指令式生成:用戶可以輸入“語氣堅定點”、“語速放慢並帶點情緒起伏”等指令，模型會實時調整輸出效果。
語種擴容:新增支持泰語、印尼語、葡萄牙語及越南語，在13種語言的轉寫準確率（WER）和音色相似度上保持業內領先。
生僻字優化:通過專項調優，生僻字讀錯率從15.2% 大幅降至 5.3%。
性能提升:首包延遲降低 35%，極大提升了實時交互場景下的流暢度。

Fun-AudioGen-VD:全場景聲音設計

該模型更像是一個“聲音導演”，能夠根據描述生成“人物 + 場景”的一體化音頻。

音色定製:支持指定性別、年齡、口音，甚至細化到“沙啞、磁性、低沉”等特質。
情緒與角色:能夠模擬客服、播音員、孩童等角色，甚至能表現出“表面鎮定但內心顫抖”等複雜心理狀態。
環境沉浸感:支持疊加背景音（如戰場轟鳴、咖啡館喧囂）和空間特效(如大教堂回聲、水下聽感)，實現全方位的空間模擬。

通義實驗室表示，這兩款模型的發佈將進一步降低高品質語音創作的門檻，爲播客、遊戲開發、影視後期等領域提供強大的 AI 助力。

相關推薦

DeepSeek組建新團隊直接對標Anthropic旗下的Claude Code

DeepSeek 正組建新團隊“Harness”，開發對標Anthropic Claude Code的代碼智能體產品。資深研究員陳德里證實，公司將全力推進DeepSeek Code Harness的研發，併爲此進行專項招聘。

全面接入Gemini！YouTube推出“Ask YouTube”對話式搜索

YouTube在2026年I/O大會上發佈AI進化藍圖，將Gemini大模型融入搜索、創作與安全三大環節，而非激進替代。新推出的“Ask YouTube”對話式搜索功能，標誌着從關鍵詞檢索向深度互動轉型，旨在平衡平臺生態與AI賦能。

Figure AI總部開啓120小時人形機器人分揀直播:10小時人機對決人類多勝192件

具身智能公司Figure AI舉辦了一場長達120小時的機器人包裹分揀直播，並邀請實習生Aimé Gérard與旗下人形機器人進行10小時同臺競技。最終，人類以12924個總揀量勝出，僅比機器人多192個。數據顯示，實習生平均單件用時2.79秒，機器人則爲2.83秒，雙方表現接近。

AI影視“軍備競賽”升級：Netflix組建動畫工作室，愛奇藝財報揭示AI增效新路徑

Netflix成立AI工作室INKubator，探索“原生AI”動畫長片；愛奇藝同步加速AI佈局，推動科技與藝術融合。全球影視工業正經歷AI驅動的生產力變革，兩大流媒體巨頭引領行業向智能化創作邁進。

DeepMind 首席執行官痛批“AI 裁員論”：用 AI 取代開發者是重大錯誤

谷歌I/O大會上，DeepMind CEO哈薩比斯反對“AI取代程序員”論調，認爲這是缺乏想象力的表現。他強調，AI提升生產力不應成爲裁員藉口，技術進步應賦能人類而非替代崗位。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2026AIBase