アリババ・チュンイー研究所の音声チームは、本日2つの革命的な音声生成モデル「Fun-CosyVoice3.5」と「Fun-AudioGen-VD」を発表しました。これらのモデルの最大の特徴は、「FreeStyle」コマンドをサポートしている点で、ユーザーは複雑なパラメータ調整を行う必要がなく、自然言語での一文の説明だけで、音声の表現スタイルを正確に制御したり、ゼロから複雑なオーディオシーンを作成することが可能です。

image.png

この2つのモデルにはそれぞれ異なる機能の焦点があります:

Fun-CosyVoice3.5: 多言語復元と詳細な制御

このモデルは以前のCosyVoiceのアップグレード版であり、音声表現の「理解力」において大きな突破を遂げました。

  • コマンド式生成:ユーザーは「より強い口調で」「語速を遅くして感情の起伏を加えて」といった指示を入力し、モデルはリアルタイムで出力を調整します。

  • 言語拡充:タイ語、インドネシア語、ポルトガル語、ベトナム語など新たにサポートされる言語が追加され、13の言語における転写誤り率(WER)と音色の類似度では業界のトップクラスを維持しています。

  • 生僻字最適化:特別な調整により、生僻字の読み間違い率は15.2%から大幅に減少し、5.3%まで下がりました。

  • 性能向上:初回パケットの遅延は35%低下し、リアルタイムでのインタラクティブなシナリオにおいても非常にスムーズになりました。

Fun-AudioGen-VD: あらゆるシーンの音声デザイン

このモデルはまるで「音声監督」のような存在で、説明に基づいて「人物 + 場面」の一体化したオーディオを生成できます。

  • 音色カスタマイズ:性別や年齢、アクセントを指定することができ、さらに「かすれた声、磁気のある声、低音の声」などの特徴まで細かく指定できます。

  • 感情と役割:カスタマーサポート、ニュースキャスター、子供など様々な役割を模倣でき、また「表面的には冷静だが、内心では震えている」というような複雑な心理状態も再現可能です。

  • 環境の没入感:背景音(戦場の轟音、カフェの賑わい)や空間エフェクト(大聖堂の反響、水中の聴覚)を重ねて適用でき、全方位の空間シミュレーションが可能です。

通義研究所は、これらのモデルのリリースによって、高品質な音声創作の障壁がさらに低くなると述べています。これは、ポッドキャスト、ゲーム開発、映画の後工程などさまざまな分野に強力なAIの支援を提供することになります。