正文

閃速！ElevenLabs推Flash語音對話模型：僅75毫秒延遲支持32種語言

發布於AI新閒資訊

時間 :Dec 20, 2024

閱讀 :1分鐘

ElevenLabs 於近日正式推出其最新的人聲合成模型 Flash，聲稱這是迄今爲止最快的文本轉語音（TTS）解決方案，生成語音的延遲僅爲75毫秒(加上應用和網絡延遲)。Flash 特別適合低延遲的對話式語音助手，用戶可以在 ElevenLabs 的對話 AI 平臺上立即體驗這一新功能。

Flash 模型分爲兩個版本，其中 Flash v2僅支持英語，而 Flash v2.5則支持32種語言。使用這兩種模型時，用戶每生成兩個字符將消耗1個積分點。儘管 Flash 模型在音質和情感深度上稍遜於 Turbo 模型，但其低延遲性能使其在盲測中超越了其他同類產品，成爲同類模型中速度最快的選擇。

ElevenLabs 的技術團隊表示，Flash 模型的推出將極大地推動人機交互的流暢度與自然感。開發者可以通過 API 直接調用模型 ID “eleven_flash_v2” 和 “eleven_flash_v2_5”，具體的 API 參考資料可在 ElevenLabs 官網找到。通過這一創新，ElevenLabs 期待能夠開啓更多低延遲、人性化的對話互動場景。

ElevenLabs 還提供了多種產品和解決方案，包括定製化的語音助手、音頻製作工具和配音工作室，旨在幫助不同領域的用戶和開發者實現高質量的 AI 音頻創作。此外，ElevenLabs 也在積極開展研究和開發，持續提升其產品的技術水平，以滿足用戶日益增長的需求。

劃重點:
🌟 Flash 模型生成語音的延遲僅爲75毫秒，適合低延遲的對話式語音助手。
🌍 Flash v2.5支持32種語言，用戶生成每兩個字符消耗1個積分。
🚀 在盲測中，Flash 模型表現優於其他同類產品，成爲速度最快的文本轉語音解決方案。

紐約大學教授利用 AI 口試應對學術作弊，成本僅42美分

紐約大學教授在課程中嘗試口試，發現許多書面作業優秀的學生無法口頭解釋自己的決策，暴露了教學與評估的不足。

Jan 5, 2026

153.6k

拒絕高價訂閱!Resemble AI 全面開源旗艦級 TTS 模型，自帶防僞水印劍指商業應用

初創公司Resemble AI發佈開源語音模型“Chatterbox Turbo”，挑戰行業巨頭。該模型僅需5秒音頻即可克隆語音，延遲低至150毫秒，適用於實時AI代理、客服、遊戲角色等場景，性能顯著提升。

Dec 29, 2025

164.9k

ElevenLabs打通WhatsApp！AI語音助理可接打電話、批量外呼，客服革命正式落地

ElevenLabs的AI語音智能體深度集成WhatsApp，支持文字與語音雙模交互。用戶可通過文字聊天或直接撥打WhatsApp語音電話，與擁有逼真人聲的AI助理實時對話。企業可便捷部署具備多語言、情感識別、實時翻譯等能力的AI語音助手，重構客服體驗。

Dec 19, 2025

170.5k

微軟開源實時語音模型VibeVoice-Realtime-0.5B，300ms實時開聲，90分鐘長音頻都不喘！

微軟開源實時語音模型VibeVoice-Realtime-0.5B，具備極低延遲和接近真人的語音表現。該模型從文本輸入到發聲平均僅需300毫秒，遠低於傳統TTS模型的1-3秒，實現近乎零延遲的實時語音合成。

Dec 5, 2025

397.2k

ElevenLabs炸裂級更新：圖像、視頻、音樂一站式生成

多模態AI公司ElevenLabs推出集成式內容創作平臺，融合圖像生成、視頻製作、聲音合成、音樂創作和音效設計功能，實現從劇本到成品視頻的一站式閉環生產，幫助創作者和營銷人員告別多平臺切換，高效完成商業視頻製作。

Nov 18, 2025

197.6k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご