Inworld AI 推出實時 TTS-2：一款適應用戶交流方式的閉環語音模型

Inworld AI 近日推出了其最新的語音模型 —— 實時 TTS-2。這款模型通過 Inworld API 和 Inworld Realtime API 的研究預覽版本，旨在改變傳統語音 AI 的對話方式。以往，語音合成模型僅僅是將文本轉換爲音頻，而 TTS-2則能夠實時聽取交流中的音頻，感知用戶的語調、節奏和情感狀態而提供更自然的對話體驗。

TTS-2的關鍵特點在於其閉環系統架構。與傳統模型不同，它不僅僅依賴文字轉錄，而是直接接收交流中的實際音頻。這一差異使得模型能夠理解同一句話在不同情境下的含義。例如，“好吧，算了” 在沮喪的語氣和輕鬆的語氣中傳達的情感大相徑庭。TTS-2能夠捕捉到這些情感信息，提升了對話的連貫性和真實感。

該模型配備了四大功能，進一步增強了其獨特性。首先是 “語音指令” 功能，允許開發者在推理時用簡單的語言提示來引導語音的表達，而非僅僅選擇固定的情感標籤。其次是 “對話意識”，即閉環架構讓模型理解上下文。此外，TTS-2支持跨語言的語音識別和輸出，用戶可以在同一對話中無縫切換語言，保持聲音的統一性。最後是 “高級語音設計”，允許開發者通過描述性文字生成可重複使用的聲音，無需參考音頻。

TTS-2的推出標誌着 Inworld AI 在語音技術上的進一步突破。該模型不僅能處理高質量的音頻輸出，更專注於上下文意識和語音的一致性，提升了用戶體驗。通過這些創新，Inworld AI 希望在競爭激烈的語音 AI 市場中脫穎而出。

劃重點:
🎤 ** 實時對話 **:TTS-2通過閉環系統捕捉用戶的音頻，理解情感和語調。
🌍 ** 多語言支持 **:一個聲音身份可以在100多種語言中保持一致，支持中間切換。
🛠️ ** 語音設計靈活 **:開發者可通過描述性文字生成可重複使用的聲音，無需額外音頻參考。

爆火！學術團隊僅憑SFT打破大廠壟斷，OpenSeeker-v2 登頂搜索智能體榜單

深度搜索能力是當前大模型領域的核心競爭點，但傳統開發模式依賴資源密集的預訓練、微調和強化學習，長期被工業巨頭壟斷。近日，學術界團隊推出OpenSeeker-v2，打破常規，通過高質量方法顯著降低資源消耗，展示了高效創新的新路徑。

Inworld AI 推出實時 TTS-2：一款適應用戶交流方式的閉環語音模型

相關推薦

OpenAI 發佈三款實時語音模型，GPT-5 級推理能力落地

OpenAI 發佈三款實時語音模型，針對推理對話、實時翻譯和實時轉錄

OpenAI 發佈全新語音模型 GPT-Realtime，專爲語音AI Agent設計

DeepSeek 或獲國家大基金領投，估值逼近450億美元

爆火！學術團隊僅憑SFT打破大廠壟斷，OpenSeeker-v2 登頂搜索智能體榜單

Inworld AI 推出實時 TTS-2：一款適應用戶交流方式的閉環語音模型

相關推薦

OpenAI 發佈三款實時語音模型，GPT-5 級推理能力落地

​OpenAI 發佈三款實時語音模型，針對推理對話、實時翻譯和實時轉錄

OpenAI 發佈全新語音模型 GPT-Realtime，專爲語音AI Agent設計

DeepSeek 或獲國家大基金領投，估值逼近450億美元

爆火！學術團隊僅憑SFT打破大廠壟斷，OpenSeeker-v2 登頂搜索智能體榜單

OpenAI 發佈三款實時語音模型，針對推理對話、實時翻譯和實時轉錄