人工智能语音领域迎来强力竞争者,初创公司 Resemble AI 正式发布了名为“Chatterbox Turbo”的开源文本转语音模型,其矛头直指 ElevenLabs 和 Cartesia 等行业巨头。
这款模型在性能上实现了显著突破,仅需五秒钟的参考音频即可精准克隆目标语音,并在短短150毫秒内输出首个音频片段。这种极致的低延迟表现,使其成为构建实时 AI 代理、自动化客户支持、动态游戏角色、虚拟形象以及社交平台交互的理想选择。Resemble AI 声称,该模型在语音质量上已超越现有闭源竞品,能为开发者提供更自然的合成体验。
在安全合规方面,Chatterbox Turbo 针对受监管行业内置了名为“PerTh”的神经水印功能,可用于验证语音的 AI 生成身份,有效应对深度伪造风险。更具颠覆性的是,Resemble AI 选择了以 MIT 许可证发布该模型,意味着全球开发者不仅可以在 Hugging Face、RunPod、Modal、Replicate 和 Fal 等平台免费试用,还能在 GitHub 获取完整代码进行商业化修改与分发。
目前,Resemble AI 已同步提供托管服务,并计划在近期推出进一步优化延迟的版本,旨在通过开源生态重塑语音合成市场的竞争格局。
