ElevenLabs 於近日正式推出其最新的人聲合成模型 Flash,聲稱這是迄今爲止最快的文本轉語音(TTS)解決方案,生成語音的延遲僅爲75毫秒(加上應用和網絡延遲)。Flash 特別適合低延遲的對話式語音助手,用戶可以在 ElevenLabs 的對話 AI 平臺上立即體驗這一新功能。

image.png

Flash 模型分爲兩個版本,其中 Flash v2僅支持英語,而 Flash v2.5則支持32種語言。使用這兩種模型時,用戶每生成兩個字符將消耗1個積分點。儘管 Flash 模型在音質和情感深度上稍遜於 Turbo 模型,但其低延遲性能使其在盲測中超越了其他同類產品,成爲同類模型中速度最快的選擇。

ElevenLabs 的技術團隊表示,Flash 模型的推出將極大地推動人機交互的流暢度與自然感。開發者可以通過 API 直接調用模型 ID “eleven_flash_v2” 和 “eleven_flash_v2_5”,具體的 API 參考資料可在 ElevenLabs 官網找到。通過這一創新,ElevenLabs 期待能夠開啓更多低延遲、人性化的對話互動場景。

image.png

ElevenLabs 還提供了多種產品和解決方案,包括定製化的語音助手、音頻製作工具和配音工作室,旨在幫助不同領域的用戶和開發者實現高質量的 AI 音頻創作。此外,ElevenLabs 也在積極開展研究和開發,持續提升其產品的技術水平,以滿足用戶日益增長的需求。

劃重點:

🌟 Flash 模型生成語音的延遲僅爲75毫秒,適合低延遲的對話式語音助手。

🌍 Flash v2.5支持32種語言,用戶生成每兩個字符消耗1個積分。

🚀 在盲測中,Flash 模型表現優於其他同類產品,成爲速度最快的文本轉語音解決方案。