Inworld AI 近日推出了其最新的語音模型 —— 實時 TTS-2。這款模型通過 Inworld API 和 Inworld Realtime API 的研究預覽版本,旨在改變傳統語音 AI 的對話方式。以往,語音合成模型僅僅是將文本轉換爲音頻,而 TTS-2則能夠實時聽取交流中的音頻,感知用戶的語調、節奏和情感狀態而提供更自然的對話體驗。

TTS-2的關鍵特點在於其閉環系統架構。與傳統模型不同,它不僅僅依賴文字轉錄,而是直接接收交流中的實際音頻。這一差異使得模型能夠理解同一句話在不同情境下的含義。例如,“好吧,算了” 在沮喪的語氣和輕鬆的語氣中傳達的情感大相徑庭。TTS-2能夠捕捉到這些情感信息,提升了對話的連貫性和真實感。
該模型配備了四大功能,進一步增強了其獨特性。首先是 “語音指令” 功能,允許開發者在推理時用簡單的語言提示來引導語音的表達,而非僅僅選擇固定的情感標籤。其次是 “對話意識”,即閉環架構讓模型理解上下文。此外,TTS-2支持跨語言的語音識別和輸出,用戶可以在同一對話中無縫切換語言,保持聲音的統一性。最後是 “高級語音設計”,允許開發者通過描述性文字生成可重複使用的聲音,無需參考音頻。
TTS-2的推出標誌着 Inworld AI 在語音技術上的進一步突破。該模型不僅能處理高質量的音頻輸出,更專注於上下文意識和語音的一致性,提升了用戶體驗。通過這些創新,Inworld AI 希望在競爭激烈的語音 AI 市場中脫穎而出。
劃重點:
🎤 ** 實時對話 **:TTS-2通過閉環系統捕捉用戶的音頻,理解情感和語調。
🌍 ** 多語言支持 **:一個聲音身份可以在100多種語言中保持一致,支持中間切換。
🛠️ ** 語音設計靈活 **:開發者可通過描述性文字生成可重複使用的聲音,無需額外音頻參考。
