最近、小米の次のKaldiチーム(k2-fsa)は、OmniVoiceを正式にオープンソースとして公開しました。これは600種類以上の言語をサポートする超大規模な多言語ゼロショットテキストtoスピーチ(TTS)モデルであり、中国語・英語および多言語のベンチマークテストにおいて複数の重要な指標がSOTA(State-of-the-Art)に達しており、音声合成分野で新たな突破をもたらしています。
性能指標の優位性:中国語WERは0.84%に低下し、多言語で主流の商用モデルを上回る
Seed-TTS中国語テストセットにおいて、OmniVoiceの単語誤り率(WER)はわずか0.84%です。多言語ベンチマークにおいて、その類似度(SIM-o)とWER指標はElevenLabs v2やMiniMaxなどの有名モデルを上回っており、非常に自然で明瞭な音声品質を示しています。

高速推論:RTFは0.025に低下し、リアルタイムより40倍速い
OmniVoiceのリアルタイム因子(RTF)は0.025にまで低下しており、リアルタイムの要件を大幅に超えており、効率が著しく向上しています。このため、実際の応用では長文の音声生成が迅速に行え、ユーザー体験が大きく向上します。
コアアーキテクチャの革新:拡散言語モデルスタイルの離散的非自己回帰設計
OmniVoiceは、拡散言語モデルスタイルの離散的非自己回帰構造を使用しており、テキストから一度に音声を直接生成できます。従来の間接的な意味トークン段階を省略しています。この設計によりプロセスが大幅に簡素化され、音声品質も保証されています。全コードブックのランダムマスク戦略と予訓練されたLLMの初期化を組み合わせることで、さらにトレーニング効率と最終的な出力の明瞭さと理解性が向上します。
柔軟な音声クローンとカスタマイズ:3〜10秒の参照オーディオで実現可能
モデルは3〜10秒の短い参照オーディオを使用して高品質なゼロショット音声クローンを実現できます。また、ユーザーは自然言語の説明を使って音声属性をカスタマイズすることが可能です。これは性別、年齢、トーン、アクセント、方言などだけでなく、囁き風などの特別な効果も生成できます。
非言語記号と精密な発音制御をサポート
OmniVoiceは[laughter]のような非言語記号を処理でき、ピンインまたは音符によって発音を修正することも可能です。これは中国語および地方話の正確な合成に特に適しています。
600種類以上の言語をカバー:少数言語および絶滅危機言語のデジタル化保護を支援
OmniVoiceの最大の特徴は、広範な言語カバレッジです。主要言語から多くの低資源言語まで、すべてを効率的にサポートしています。少数言語および絶滅危機言語にとって、少量のサンプルで高品質な音声を生成できるため、言語文化のデジタル保存と保護に重要な意義を持っています。
OmniVoiceのコードと事前トレーニング済みモデルはGitHubとHugging Faceでオープンソースとなっています。開発者は簡単にローカルに配置したり、アプリケーションに統合したりできます。AIbaseはOmniVoiceのコミュニティフィードバックと実際の使用ケースを継続的に注視し、開発者からのさらなる体験共有をお待ちしています。
プロジェクトアドレス:https://github.com/k2-fsa/OmniVoice
