昨日、ボクソンエンジンは正式に豆包音声生成モデル1.0(Doubao-Seed-Audio 1.0)を発表しました。このモデルはテキストまたは音声のいずれかのモダリティを入力として、エンドツーエンドで完全な音声作品を生成できます。このモデルの中心的な突破点は、「1つのプロンプトで対話、効果音、背景音楽のすべての要素を生成できる」ことで、従来の人工的なマルチトラック編集の作業フローを完全に終わらせました。

一言で「音声監督」に変身し、すべての後処理を省ける
これまで、完成度の高い音声作品を作成するには、会話、効果音、バックグラウンドミュージックを個別に生成し、手動で同期させ、マルチトラックミキシングを行う必要がありました。そのプロセスは複雑で、後処理技術の能力に大きく依存していました。豆包音声生成モデル1.0では、すべてが1つのプロンプトに収められました。ユーザーは1つの指示で、複数のキャラクターの台詞、トーン、感情のリズムを同時に定義でき、笑い、ため息、停頓、地方訛りなどの詳細を埋め込むことができます。バックグラウンドミュージックと環境効果音も同時に生成され、出力がそのまま完成品になります。クリエイターが一文を入力するだけで、直接配信可能なオーディオドラマ、パッドキャスト、ブランド音声を受領できます。
長編音声でも「役割が混ざらない」、キャラクターの声が一貫して
長編音声の制作において、クリエイターにとって最も悩ましい問題は、前後の一貫性です。第1分と第10分の声が同じ人物のように聞こえるかどうかです。豆包音声生成モデル1.0は、テキストから音声を生成することと参照音声との深い連携を実現し、長編音声において声の質を非常に統一されます。クリエイターは、各セグメントを比較し、繰り返し修正する必要はありません。現在のモデルでは、1回の操作で最大2分間の音声制作が可能です。さらに、複数回の延長機能によって、長距離生成において声の質の一貫性を保つことができ、オーディオブック、パッドキャスト、長編ドラマなどさまざまなシーンに応えます。
