本日、通義ラボは、「FreeStyle」指令生成をサポートする2つの音声大規模モデル:Fun-CosyVoice3.5Fun-AudioGen-VDの正式リリースを発表しました。今回のリリースは、音声生成技術が従来の予め設定されたタグに依存する枠組みから、自然言語の指示に基づいて自由に制御できる新しい枠組みへの飛躍を示し、「一文で自由に音声を生成する」深いインタラクティブな体験を実現しました。

QQ20260302-113700.png

QQ20260302-113713.png

技術構造と機能のアップグレードに関して、Fun-CosyVoice3.5は多言語の再現と細やかな表現に焦点を当てており、タイ語、インドネシア語など4つの言語を新たにサポートしています。DiffROおよびGRPO強化学習技術を導入することで、このモデルは音声のリズム表現と音質類似度を著しく向上させ、生僻字の誤読率を15.2%から5.3%まで大幅に低下させ、初パケット遅延も35%低下しました。それに補完的なFun-AudioGen-VDは、音声デザインとシナリオ別のモデリングに注力しており、指示によって性別、感情、空間音響効果などを正確に制御することが可能です。例えば「狂った悪役」や「賑やかなカフェ」など、複雑なキャラクターと背景音の一体化したシナリオを模倣できます。

業界のトレンドを見ると、通義ラボのこの動きにより、音声生成は単なる変換ツールから創作ツールへと進化しました。こうした説明可能で編成可能なデジタル表現能力は、映画、ゲーム、AIスマートエージェントなどの分野において直接的に支援を行い、コンテンツ制作コストを下げつつ、人間と機械のインタラクションの意味の豊かさを大きく広げることになります。

API呼び出し:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

ドキュメント:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2