通義ラボが音声二モデルを発表：Fun-CosyVoice3.5とFun-AudioGen-VDがリリース

本日、通義ラボは、「FreeStyle」指令生成をサポートする2つの音声大規模モデル:Fun-CosyVoice3.5とFun-AudioGen-VDの正式リリースを発表しました。今回のリリースは、音声生成技術が従来の予め設定されたタグに依存する枠組みから、自然言語の指示に基づいて自由に制御できる新しい枠組みへの飛躍を示し、「一文で自由に音声を生成する」深いインタラクティブな体験を実現しました。

技術構造と機能のアップグレードに関して、Fun-CosyVoice3.5は多言語の再現と細やかな表現に焦点を当てており、タイ語、インドネシア語など4つの言語を新たにサポートしています。DiffROおよびGRPO強化学習技術を導入することで、このモデルは音声のリズム表現と音質類似度を著しく向上させ、生僻字の誤読率を15.2％から5.3％まで大幅に低下させ、初パケット遅延も35％低下しました。それに補完的なFun-AudioGen-VDは、音声デザインとシナリオ別のモデリングに注力しており、指示によって性別、感情、空間音響効果などを正確に制御することが可能です。例えば「狂った悪役」や「賑やかなカフェ」など、複雑なキャラクターと背景音の一体化したシナリオを模倣できます。

業界のトレンドを見ると、通義ラボのこの動きにより、音声生成は単なる変換ツールから創作ツールへと進化しました。こうした説明可能で編成可能なデジタル表現能力は、映画、ゲーム、AIスマートエージェントなどの分野において直接的に支援を行い、コンテンツ制作コストを下げつつ、人間と機械のインタラクションの意味の豊かさを大きく広げることになります。

API呼び出し:https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP

ドキュメント:https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2

通義ラボがQwen3.7-Maxを発表し、直交分離技術で多数の評価で国内第1位を獲得

通義ラボは新世代のAIエージェント基盤大モデルQwen3.7-Maxを発表しました。このモデルは多数の評価で国内第1位を獲得し、スマートエージェントの長距離フローでの中断やクラッシュ問題を解決することを目的としています。未知のハードウェアZW-M890L PPUにおける極限ストレステストでは、文書や事前データが一切なく、実行時フィードバックに従って長距離戦略の一貫性と汎化力を示し、連続35時間、1158回のツール呼び出しで中断なしでした。

通義が開発した初めての映画級声優モデル：AIは感情を込めて話すことをついに学んだ

アリババの通義ラボが、世界初の映画級・多シーン対応のマルチモーダルAI音声モデル「Fun-CineForge」をオープンソース化。感情表現、環境音融合、口型同期などの技術的課題を克服し、映像業界の音声制作の知能化を推進。....

1文で音声を即座に調整！アリババ通義が音声2モデルを発表：「FreeStyle」自然言語コントロールに対応

アリババ通義ラボは、Fun-CosyVoice3.5とFun-AudioGen-VDの2つの音声生成モデルをリリースしました。自由な「FreeStyle」コマンドをサポートしており、ユーザーは自然言語による記述で音声スタイルを制御したり、オーディオシーンを構築できます。Fun-CosyVoice3.5は多言語の再現と細やかな制御に特化しており、CosyVoiceのアップグレード版です。

通義千問Qwen Codeがバージョン0.5.0に大幅アップグレード！コマンドラインツールから完全な開発エコシステムへ

アリババクラウドの通義ラボは、Qwen Code バージョン0.5.0をリリースしました。国内のAIプログラミングツールがコマンドラインツールからフルスタック開発エコシステムプラットフォームへと進化しました。新バージョンでは、コアなコーディング能力が強化され、プラグインの統合、プロジェクトの上下文理解、開発者の協力支援において新たな突破を遂げました。多ツール連携アーキテクチャを導入し、開発者のデジタル作業台を構築しています。

アリババクラウドがオープンソースで通義千問画像編集モデル Qwen-Image-Edit-2511 を公開！画像のずれ問題を修正し、編集の一貫性が大幅に向上