アリババは、Qwen3シリーズの最新メンバーであるQwen3-TTSを正式にリリースしました。この製品は「ゼロサンプル、多役、跨言語」を特徴とする音声合成を提供しています。新しいモデルは国際的な語誤り率(WER)の基準において主流の商用エンジンを顕著に上回っています。同時に阿里雲コントロールパネルにアップロードされ、開発者は100万文字の量を無料で呼び出すことができます。

 49種類の高品質なボイスカラー、ワンクリックで役割を切り替える  

優しい少女から地方弁のオジサンまで、Qwen3-TTSには49種類の公式ボイスクラーが内蔵されており、ナレーション、カスタマーサービス、ライブ配信、教育などの場面に対応しています。また、10種類の言語と9種類の中国方言(広東語、四川語、東北語など)をサポートし、同じテキストを秒単位でボイスクラーを切り替えて使用でき、再トレーニングは必要ありません。

image.png

テキスト→トーン→テンポ、全自动の「人間風」  

モデルは自己回帰型音響モデルとリズム予測モジュールを使用しており、句読点や感情ラベルに基づいて調子の上下や休符を自動的に挿入します。48kHzのサンプリングレートでMOSスコアは4.53となり、業界平均の4.1を顕著に上回っています。

WERは商用モデルを大幅に上回る  

マルチリンガル音声合成公開テストセット(MLS + Common Voice)において、Qwen3-TTSの英語WERは2.8%、中国語は1.9%に低下し、Azure TTSよりもそれぞれ18%と24%改善し、オープンソースのSOTAを更新しました。

教育シーンでの「ゼロサンプル」の実装  

アリババは同時に「ワンクリック朗読」プラグインもリリースしました。教師がPPTをアップロードすると、自動的に地方弁付きの解説音声が生成されます。現在、上海の120校で試験運用中で、生徒が「故郷の言葉」で単語を書き取るお手伝いをしています。

価格とアクセス  

- フリー層: 月間100万文字、49種類のボイスクラーは無制限に呼び出し可能  

- プレミアム層: 1万文字あたり0.8元、SSMLとリアルタイムストリーム合成をサポート  

- コントロールパネル: console.aliyun.com → AI → 音声合成 → Qwen3-TTS(すでに全量展開)

今後の計画  

アリババは、2025年第1四半期に「10秒のボイスクローン」インターフェースを公開する予定です。ユーザーが短い音声をアップロードすれば、固有の話者を生成できます。さらに80kHzの超サンプリングバージョンもリリースされ、ラジオ番組、オーディオブック、仮想アイドル市場に注目しています。

業界観察  

TTSの分野は「聞き取れる」段階から「役割化」へと進んでいます。Qwen3-TTSはオープンソースと低価格のコンビネーションで、AzureやAWSの商用市場に衝撃を与えています。また、ライブ配信、カスタマーサービス、教育の三大シーンに対して「ゼロサンプル」の実装ルートを提供しています。ボイスクローンと超サンプリングバージョンのリリースとともに、音声生成は「誰でもナレーションを作成できる」新時代に突入するかもしれません。AIbaseは引き続きそのクローンインターフェースの公開進捗と商用ケースを追跡していきます。

プロジェクトのリンク:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo