最近、アリババクラウドのQwenチームは、テキスト指令を通じて音声を生成またはクローンするための2つの新しいAIモデルをリリースしました。そのうちの1つであるQwen3-TTS-VD-Flashモデルでは、ユーザーが詳細な説明に基づいて音声を生成でき、例えば感情や話しのペースなどの音声の特徴を正確に定義できます。

例えば、「中年男性、太い男声――元気で力強い広告ナレーション、早口、過剰なトーンの変化、売買を促すような声」を要求して音声を生成することが可能です。メーカーの説明によると、このモデルはOpenAIが最近リリースしたGPT-4o mini-tts APIよりもパフォーマンスが優れています。

もう一つのモデルであるQwen3-TTS-VC-Flashは、わずか3秒の音声だけで音声をコピーし、10言語での再現が可能です。Qwenは、このモデルが競合他社(例:ElevenlabsやMiniMax)よりも誤り率が低いと主張しています。

さらに、このAIは複雑なテキストを処理し、動物の鳴き声を模倣し、録音から音声を抽出することもできます。2つのモデルはともにアリババクラウドのAPI経由でアクセス可能であり、ユーザーはHugging Faceプラットフォームでモデルのデモを試すこともできます。

ポイント:  

🌟 新しいQwenモデルは、テキスト記述を通じて音声を生成およびクローンすることが可能です。  

🎤 Qwen3-TTS-VC-Flashは3秒以内で音声をコピーし、10言語に対応しています。  

🚀 モデルの性能は競合より優れており、複雑なテキスト処理や音声模倣に適しています。