小米は自社開発の音声合成大規模モデル「Xiaomi MiMo-V2-TTS」を正式に発表し、これは高制御性と高い表現力を持つ音声生成分野において重要な進展を示しています。このモデルは自社開発のAudio Tokenizerおよび多コードブック音声-テキスト連合モデリング構造に基づいています。
数億時間に及ぶ音声データによる大規模な事前学習を通じて、全体的なスタイルの調整から個別的な微細な感情の正確な調整までを実現しました。従来のTTSとは異なり、MiMo-V2-TTSは1文内でトーンの転換や感情の変化を処理する能力を持ち、人間の会話の自然なリズムを高精度で再現し、音高とリズムの正確度が求められる歌詞の合成もサポートしています。技術面では、生成の安定性と表現力を両立させるために多次元強化学習を導入しました。モデルは標点、語尾の語感、強調マークなどのテキスト信号を自動的に認識し、追加の手作業によるラベリングなしに適切な音声出力に変換できます。また、このモデルは非常に高い地域間適応性を持ち、東北語、四川語、河南語、広東語、台湾語などの多様な方言に対応し、キャラクター化された表現にも対応しています。
小米の音声技術ロードマップにおける重要な節目となるMiMo-V2-TTSは、将来さらに多言語へのカバーを拡大し、MiMo-V2-Omniのマルチモーダル理解機能と深く統合していきます。単一の音声合成からマルチモーダルな感知と表現の協調へと進化するこのプロセスは、AIエージェントが単なる意味のやり取りから、より人間らしい感情共鳴を持つ人間と機械のインタラクションへと進化していることを示しており、スマートカー内やスマートホームなどのシーンにおけるユーザー体験を大幅に向上させることになります。

