當AI語音不僅能“像人說話”,還能“像你說話”,且快到幾乎無感,語音交互的邊界正在被徹底重構。 10 月 30 日凌晨,MiniMax稀宇科技正式發佈其新一代語音合成模型——MiniMax Speech 2.6,以端到端延遲低於 250 毫秒的實時性能與革命性的Fluent LoRA音色復刻技術,將語音生成推向高自然度、低延遲、強個性化的全新階段。
250 毫秒以內:逼近人類對話的實時響應
在語音交互場景中,延遲是體驗的生命線。Speech 2. 6 通過底層架構優化,實現從文本輸入到音頻輸出全程低於 250 毫秒,接近人類自然對話的響應節奏。這意味着在智能客服、實時字幕、虛擬主播等高要求場景中,AI語音不再“慢半拍”,真正實現流暢對答與沉浸式交互。
Fluent LoRA: 30 秒音頻即可克隆專屬音色
本次最大突破在於Fluent LoRA(Low-Rank Adaptation)技術的深度集成。用戶僅需提供 30 秒以上的參考音頻,模型即可精準捕捉說話人的音色、語調、節奏甚至情感風格,並生成與目標文本高度匹配的自然語音。無論是復刻自己的聲音講述睡前故事,還是爲品牌定製專屬虛擬代言人,音色克隆從未如此簡單、高效且逼真。
更關鍵的是,Fluent LoRA在保證音色一致性的前提下,顯著提升語音流暢度,避免傳統TTS常見的“機械斷句”或“情感錯位”問題,讓合成語音真正具備“表達力”。
全場景覆蓋:從個人創作到企業級部署
MiniMax Speech 2. 6 同時面向個人創作者與企業客戶開放:
- 教育領域:教師可快速生成帶講解的課件音頻;
- 客戶服務:企業能部署具備品牌音色的智能語音機器人;
- 智能硬件:車載、家居設備可實現低延遲、高擬真語音交互;
- 內容生產:UP主、播客主一鍵生成多角色配音,大幅提升創作效率。
作爲MiniMax多模態大模型生態的關鍵一環,Speech 2. 6 不僅強化了其在AIGC領域的技術縱深,更標誌着語音合成正從“功能可用”邁向“情感可信、個性可定製”的新紀元。
在AI競爭日益聚焦“體驗細節”的今天,MiniMax用 250 毫秒的延遲與一句“像你一樣說話”的能力,證明了:真正的智能,不僅在於算得快,更在於說得像人、說得動人。
