音声合成技術は「機械的な読み上げ」から「感情の共鳴」へと質的な飛躍を遂げています。3月19日、小米 は自社開発の音声合成大規模モデル Xiaomi MiMo-V2-TTS を正式にリリースしました。これは単なる「機械が話すためのツール」ではなく、演じる、話す、歌うという多機能な「総合的声優」としての役割も果たします。

image.png

MiMo-V2-TTS は、小米が独自開発した Audio Tokenizer(音声トークナイザ)およびマルチコードブック音声-テキスト連合モデリング構造に基づいています。数十億時間分の音声データで大規模な事前トレーニングを行った結果、驚くほどの多スケールの音声スタイル制御能力を示しています:

  • 感情の専門家: モデルは全体的なトーンから局所的な感情に至るまで、正確な調整が可能です。同じ文の中で、話し方の自然な転換や感情の繊細な変化を実現し、人間が話す際の自然なリズムを完璧に再現できます。

  • 異分野の歌手: 話すだけでなく、高品質な歌唱合成能力も備えており、音程とリズムを正確に表現し、自然で表現力豊かな歌い方が可能です。

  • 方言のプロ: 異なる地域のユーザーの使用習慣に近づけるために、モデルは東北語、四川語、河南語、広東語、台湾風などの多様な方言をサポートしており、キャラクターやスタイルに応じた表現も可能です。

注目すべき点は、MiMo-V2-TTS がインターフェースのコストを大幅に簡略化していることです。テキスト内の句読記号、イントネーションや強調記号を自動的に認識し、適切な音声表現に変換することができます。ユーザーが追加のラベリングや手動の操作を行う必要はありません。

小米にとって、この大規模モデルのリリースは、音声技術のロードマップにおいて重要な節目です。今後の計画では、中国語と英語以外の多くの言語をカバーし、MiMo-V2-Omniのマルチモーダル理解能力と深く統合する予定です。

AIエージェントが世界を理解するだけでなく、感情を引き出すような人間らしい声で世界を語れるようになるとき、人間と機械のインタラクションの未来が明らかになります。MiMo-V2-TTS