近日,小米下一代 Kaldi 团队(k2-fsa)正式开源 OmniVoice,这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型,在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art),为语音合成领域带来全新突破。

性能指标领先:中文 WER 低至0.84%,多语言超越主流商用模型

在 Seed-TTS 中文测试集上,OmniVoice 的词错误率(WER)仅为0.84%。在多语言 benchmark 上,其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型,展现出卓越的语音自然度和清晰度。

image.png

极速推理:RTF 低至0.025,合成速度比实时快40倍

OmniVoice 的实时因子(RTF)低至0.025,意味着合成速度远超实时需求,效率提升显著。这使得模型在实际应用中能够快速生成长文本语音,极大提升用户体验。

核心架构创新:扩散语言模型风格的离散非自回归设计

OmniVoice 采用扩散语言模型风格的离散非自回归架构,可直接从文本一步生成语音,跳过传统的中间语义 token 阶段。这一设计显著简化了流程,同时保证了语音质量。全码本随机掩码策略结合预训练 LLM 初始化,进一步提升了训练效率和最终输出的清晰度与可懂度。

灵活语音克隆与定制:3-10秒参考音频即可实现

模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外,用户还可以通过自然语言描述自定义声音属性,包括性别、年龄、音调、口音、方言等,甚至可以生成耳语风格等特殊效果。

支持非语言符号与精细发音控制

OmniVoice 能够处理非语言符号,例如[laughter]表示笑声,还支持通过拼音或音标进行发音纠正,特别适合中文及方言的精准合成。

600+ 语种覆盖:助力小语种与濒危语言数字化保护

OmniVoice 的最大亮点在于其广泛的语言覆盖范围,从主流语种到众多低资源语言均能高效支持。对于小语种和濒危语言而言,只需少量样本即可生成高质量语音,这对语言文化的数字化保存和保护具有重要意义。

OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源,开发者可轻松本地部署或集成应用。AIbase 将持续关注 OmniVoice 的社区反馈与实际使用案例,欢迎开发者分享更多体验。

项目地址:https://github.com/k2-fsa/OmniVoice