最近、アリババクラウドのQwenチームは、テキスト指令を通じて音声を生成またはクローンするための2つの新しいAIモデルをリリースしました。そのうちの1つであるQwen3-TTS-VD-Flashモデルでは、ユーザーが詳細な説明に基づいて音声を生成でき、例えば感情や話しのペースなどの音声の特徴を正確に定義できます。
例えば、「中年男性、太い男声――元気で力強い広告ナレーション、早口、過剰なトーンの変化、売買を促すような声」を要求して音声を生成することが可能です。メーカーの説明によると、このモデルはOpenAIが最近リリースしたGPT-4o mini-tts APIよりもパフォーマンスが優れています。
もう一つのモデルであるQwen3-TTS-VC-Flashは、わずか3秒の音声だけで音声をコピーし、10言語での再現が可能です。Qwenは、このモデルが競合他社(例:ElevenlabsやMiniMax)よりも誤り率が低いと主張しています。
さらに、このAIは複雑なテキストを処理し、動物の鳴き声を模倣し、録音から音声を抽出することもできます。2つのモデルはともにアリババクラウドのAPI経由でアクセス可能であり、ユーザーはHugging Faceプラットフォームでモデルのデモを試すこともできます。
ポイント:
🌟 新しいQwenモデルは、テキスト記述を通じて音声を生成およびクローンすることが可能です。
🎤 Qwen3-TTS-VC-Flashは3秒以内で音声をコピーし、10言語に対応しています。
🚀 モデルの性能は競合より優れており、複雑なテキスト処理や音声模倣に適しています。
