當 AI 語音不再只是“能聽會說”,而是能像導演一樣精準調度情緒、語氣甚至角色身份,人機交互的自然度正邁入新紀元。小米今日正式推出MiMo-V2.5全鏈路語音模型系列,包含三款 TTS(語音合成)模型與一款開源 ASR(語音識別)模型,全面覆蓋 Agent 時代的語音輸入與輸出需求,讓聲音真正成爲可編程、可創作、可復刻的智能媒介。

image.png

🎙️ TTS 三大模型:聲音從此“聽你指揮”

小米此次發佈的MiMo-V2.5-TTS 系列首次實現“語言即控制”的語音生成範式:

  • MiMo-V2.5-TTS:內置多款高保真精品音色,支持通過自然語言指令精細調控語速、情緒、語氣等維度。用戶無需填寫參數,只需像對演員說戲般描述:“用溫柔但堅定的語氣,語速稍慢,帶點疲憊感”,模型即可精準演繹。

  • MiMo-V2.5-TTS-VoiceDesign:一句話生成全新音色——輸入“一個30歲知性女聲,帶輕微南方口音,適合播講財經新聞”,系統即刻創建專屬聲音,大幅降低音色創作門檻。

  • MiMo-V2.5-TTS-VoiceClone:僅需少量樣本(如30秒語音),即可高保真復刻目標人聲,同時保留對風格指令與音頻標籤的響應能力,適用於虛擬主播、個性化助手等場景。

更突破性的是其分層導演劇本機制:在有聲劇或遊戲 NPC 等高一致性要求場景中,開發者可分別定義“角色身份”“場景氛圍”“單句表演指導”,各層獨立更新卻協同輸出,確保角色聲音貫穿始終,每句臺詞又富有變化。

此外,模型支持行內音頻標籤(如[emotion: excited]),可在文本任意位置插入多標籤組合,實現複雜情感編排;即便輸入純文本無任何提示,模型也能自動解析標點、句式與隱含情感,輸出“有血有肉”的語音。

🎧 ASR 開源:嘈雜真實場景下的“全能耳朵”

同步開源的MiMo-V2.5-ASR則聚焦“聽得清、聽得準”:

  • 支持吳語、粵語、閩南語、四川話等主流中文方言;
  • 中英混說(Code-Switch) 場景下無需預設語種,轉錄流暢;
  • 強噪音、遠場拾音、多人交叉對話(如會議)等複雜環境保持高魯棒性;
  • 精準識別古詩詞、專業術語、歌曲歌詞(含伴奏干擾);
  • 原生輸出標點,轉寫結果可直接用於下游任務,無需後處理。

在多項權威評測中,該模型在中英文通用、方言、混說及歌詞識別等維度均達業界領先水平。

🚀 免費開放 + 開源,加速 Agent 生態落地

目前,三款 TTS 模型已在小米 MiMo 開放平臺限時免費,開發者可通過 API 調用或 MiMo Studio 快速體驗;而 MiMo-V2.5-ASR模型權重與代碼已完全開源,支持社區二次開發。

這一全棧語音能力的釋放,標誌着小米正從終端廠商向 AI 基礎設施提供者延伸。當每個開發者都能低成本構建具備“導演級語音表現力”的智能體,下一代人機交互的想象空間,才真正被打開——未來,你的 AI 助手不僅能理解你的話,更能用你想要的聲音,說出打動人心的回答。