小米重磅开源！OmniVoice 覆盖 600+ 语种零样本语音克隆 TTS：WER 仅 0.84%、速度快 40 倍，小语种也能轻松复活

近日，小米下一代 Kaldi 团队（k2-fsa）正式开源 OmniVoice，这是一款支持超过600种语言的超大规模多语言零样本文本转语音(TTS)模型，在中英文及多语言基准测试中多项关键指标达到 SOTA(State-of-the-Art)，为语音合成领域带来全新突破。

性能指标领先:中文 WER 低至0.84%，多语言超越主流商用模型

在 Seed-TTS 中文测试集上，OmniVoice 的词错误率（WER）仅为0.84%。在多语言 benchmark 上，其相似度(SIM-o)和 WER 指标均超过 ElevenLabs v2和 MiniMax 等知名模型，展现出卓越的语音自然度和清晰度。

极速推理:RTF 低至0.025，合成速度比实时快40倍

OmniVoice 的实时因子（RTF）低至0.025，意味着合成速度远超实时需求，效率提升显著。这使得模型在实际应用中能够快速生成长文本语音，极大提升用户体验。

核心架构创新:扩散语言模型风格的离散非自回归设计

OmniVoice 采用扩散语言模型风格的离散非自回归架构，可直接从文本一步生成语音，跳过传统的中间语义 token 阶段。这一设计显著简化了流程，同时保证了语音质量。全码本随机掩码策略结合预训练 LLM 初始化，进一步提升了训练效率和最终输出的清晰度与可懂度。

灵活语音克隆与定制:3-10秒参考音频即可实现

模型支持使用3-10秒的短参考音频进行高品质零样本语音克隆。此外，用户还可以通过自然语言描述自定义声音属性，包括性别、年龄、音调、口音、方言等，甚至可以生成耳语风格等特殊效果。

支持非语言符号与精细发音控制

OmniVoice 能够处理非语言符号，例如[laughter]表示笑声，还支持通过拼音或音标进行发音纠正，特别适合中文及方言的精准合成。

600+ 语种覆盖:助力小语种与濒危语言数字化保护

OmniVoice 的最大亮点在于其广泛的语言覆盖范围，从主流语种到众多低资源语言均能高效支持。对于小语种和濒危语言而言，只需少量样本即可生成高质量语音，这对语言文化的数字化保存和保护具有重要意义。

OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 上开源，开发者可轻松本地部署或集成应用。AIbase 将持续关注 OmniVoice 的社区反馈与实际使用案例，欢迎开发者分享更多体验。

项目地址：https://github.com/k2-fsa/OmniVoice

三年下注600亿发力AI，小米大模型斩获全球双料第一提速智能化转型

小米集团董事长雷军5月26日透露，2026年一季度研发投入90亿元，同比增长33.4%，研发人员超2.6万人，全年研发投入预计突破400亿元。自研大模型Xiaomi MiMo-V2.5-Pro在Artificial Analysis榜单中，综合智能指数与Agent指数均位列全球开源模型并列第一。

工信部等三部门联合发布《人工智能终端智能化分级》国家标准

5月8日，工信部、市场监管总局和商务部联合发布《人工智能终端智能化分级》国家标准，构建统一评价体系。标准采用“2+N”架构，明确智能终端定义、分级逻辑及测试方法，设立L1响应级至L4协同级四级能力阶梯，L4级将随技术发展后续完善。

小米新款人形机器人亮相投资者日:已进厂实测，复杂安装成功率超90%

小米于4月27日投资者大会上低调展示新款全尺寸人形机器人，研发历时四年。该机器人从实验室走向工厂实操，跳过发布会，通过分发伴手礼、打招呼等高难度灵巧交互亮相。继2021年“铁蛋”和2022年“铁大”后，小米保持四年低调研发，此次回归凸显具身智能技术突破。

小米宣布 MiMo-V2-Pro/Omni 将于2026年6月下线，全面切换 V2.5系列