小米發佈全鏈路語音大模型 MiMo-V2.5，TTS 可“一句話生成新音色”，ASR 開源支持方言與多語混說

當 AI 語音不再只是“能聽會說”，而是能像導演一樣精準調度情緒、語氣甚至角色身份，人機交互的自然度正邁入新紀元。小米今日正式推出MiMo-V2.5全鏈路語音模型系列，包含三款 TTS（語音合成）模型與一款開源 ASR(語音識別)模型，全面覆蓋 Agent 時代的語音輸入與輸出需求，讓聲音真正成爲可編程、可創作、可復刻的智能媒介。

🎙️ TTS 三大模型:聲音從此“聽你指揮”

小米此次發佈的MiMo-V2.5-TTS 系列首次實現“語言即控制”的語音生成範式:

MiMo-V2.5-TTS:內置多款高保真精品音色，支持通過自然語言指令精細調控語速、情緒、語氣等維度。用戶無需填寫參數，只需像對演員說戲般描述:“用溫柔但堅定的語氣，語速稍慢，帶點疲憊感”，模型即可精準演繹。
MiMo-V2.5-TTS-VoiceDesign:一句話生成全新音色——輸入“一個30歲知性女聲，帶輕微南方口音，適合播講財經新聞”，系統即刻創建專屬聲音，大幅降低音色創作門檻。
MiMo-V2.5-TTS-VoiceClone:僅需少量樣本（如30秒語音），即可高保真復刻目標人聲，同時保留對風格指令與音頻標籤的響應能力，適用於虛擬主播、個性化助手等場景。

更突破性的是其分層導演劇本機制:在有聲劇或遊戲 NPC 等高一致性要求場景中，開發者可分別定義“角色身份”“場景氛圍”“單句表演指導”，各層獨立更新卻協同輸出，確保角色聲音貫穿始終，每句臺詞又富有變化。

此外，模型支持行內音頻標籤（如[emotion: excited]），可在文本任意位置插入多標籤組合，實現複雜情感編排;即便輸入純文本無任何提示，模型也能自動解析標點、句式與隱含情感，輸出“有血有肉”的語音。

🎧 ASR 開源:嘈雜真實場景下的“全能耳朵”

同步開源的MiMo-V2.5-ASR則聚焦“聽得清、聽得準”:

支持吳語、粵語、閩南語、四川話等主流中文方言;
在中英混說（Code-Switch） 場景下無需預設語種，轉錄流暢;
強噪音、遠場拾音、多人交叉對話（如會議）等複雜環境保持高魯棒性;
精準識別古詩詞、專業術語、歌曲歌詞（含伴奏干擾）;
原生輸出標點，轉寫結果可直接用於下游任務，無需後處理。

在多項權威評測中，該模型在中英文通用、方言、混說及歌詞識別等維度均達業界領先水平。

🚀 免費開放 + 開源，加速 Agent 生態落地

目前，三款 TTS 模型已在小米 MiMo 開放平臺限時免費，開發者可通過 API 調用或 MiMo Studio 快速體驗;而 MiMo-V2.5-ASR模型權重與代碼已完全開源，支持社區二次開發。

這一全棧語音能力的釋放，標誌着小米正從終端廠商向 AI 基礎設施提供者延伸。當每個開發者都能低成本構建具備“導演級語音表現力”的智能體，下一代人機交互的想象空間，才真正被打開——未來，你的 AI 助手不僅能理解你的話，更能用你想要的聲音，說出打動人心的回答。

小米發佈全鏈路語音大模型 MiMo-V2.5，TTS 可“一句話生成新音色”，ASR 開源支持方言與多語混說

🎙️ TTS 三大模型:聲音從此“聽你指揮”

🎧 ASR 開源:嘈雜真實場景下的“全能耳朵”

🚀 免費開放 + 開源，加速 Agent 生態落地

相關推薦

福客AI獲阿里重磅投資！AI Agent 助力電商新革命

AI 發展加速引發焦慮，Anthropic 負責人希望用戶能輕鬆跟上

騰訊雲 TokenHub 發佈 DeepSeek-V4 預覽版，百萬上下文支持全面上線

Cohere 與 Aleph Alpha 達成 200 億美元跨大西洋人工智能合作

PerplexityCEO 稱 AI 浪潮將強化而非取代iPhone的核心地位

小米發佈全鏈路語音大模型 MiMo-V2.5，TTS 可“一句話生成新音色”，ASR 開源支持方言與多語混說

🎙️ TTS 三大模型:聲音從此“聽你指揮”

🎧 ASR 開源:嘈雜真實場景下的“全能耳朵”

🚀 免費開放 + 開源，加速 Agent 生態落地

相關推薦

福客AI獲阿里重磅投資！AI Agent 助力電商新革命

​AI 發展加速引發焦慮，Anthropic 負責人希望用戶能輕鬆跟上

騰訊雲 TokenHub 發佈 DeepSeek-V4 預覽版，百萬上下文支持全面上線

Cohere 與 Aleph Alpha 達成 200 億美元跨大西洋人工智能合作

PerplexityCEO 稱 AI 浪潮將強化而非取代iPhone的核心地位

AI 發展加速引發焦慮，Anthropic 負責人希望用戶能輕鬆跟上