ボタン音声生成モデル1.0を発表：一言で映画級の音声を作成。キャラクターの声でも10分間繰り返しにならない

昨日、ボクソンエンジンは正式に豆包音声生成モデル1.0（Doubao-Seed-Audio 1.0）を発表しました。このモデルはテキストまたは音声のいずれかのモダリティを入力として、エンドツーエンドで完全な音声作品を生成できます。このモデルの中心的な突破点は、「1つのプロンプトで対話、効果音、背景音楽のすべての要素を生成できる」ことで、従来の人工的なマルチトラック編集の作業フローを完全に終わらせました。

一言で「音声監督」に変身し、すべての後処理を省ける

これまで、完成度の高い音声作品を作成するには、会話、効果音、バックグラウンドミュージックを個別に生成し、手動で同期させ、マルチトラックミキシングを行う必要がありました。そのプロセスは複雑で、後処理技術の能力に大きく依存していました。豆包音声生成モデル1.0では、すべてが1つのプロンプトに収められました。ユーザーは1つの指示で、複数のキャラクターの台詞、トーン、感情のリズムを同時に定義でき、笑い、ため息、停頓、地方訛りなどの詳細を埋め込むことができます。バックグラウンドミュージックと環境効果音も同時に生成され、出力がそのまま完成品になります。クリエイターが一文を入力するだけで、直接配信可能なオーディオドラマ、パッドキャスト、ブランド音声を受領できます。

長編音声でも「役割が混ざらない」、キャラクターの声が一貫して

長編音声の制作において、クリエイターにとって最も悩ましい問題は、前後の一貫性です。第1分と第10分の声が同じ人物のように聞こえるかどうかです。豆包音声生成モデル1.0は、テキストから音声を生成することと参照音声との深い連携を実現し、長編音声において声の質を非常に統一されます。クリエイターは、各セグメントを比較し、繰り返し修正する必要はありません。現在のモデルでは、1回の操作で最大2分間の音声制作が可能です。さらに、複数回の延長機能によって、長距離生成において声の質の一貫性を保つことができ、オーディオブック、パッドキャスト、長編ドラマなどさまざまなシーンに応えます。

AIコストの暴走警報：大手企業が次々にトラフィック制限を実施、エンドモデルは高級品に

世界中のテクノロジー企業でAIコスト管理のトレンドが広がっており、Atlassian、Adobe、アマゾンなどの巨大企業が従業員が高価なエンドモデルを使用することを禁止し、低価格の代替案へと強制的に切り替えています。主な理由は、サプライヤーが料金モデルを固定年間費から使用量に応じた料金に変更したため、呼び出しコストが急激に暴走し、業界全体に寒気を感じさせる状況となっています。

サプライチェーンに屈しない！メタは台湾積電と米国メモリで新しいサーバーを実装

AIブームで次世代DDR5メモリが深刻な品不足に。MetaはTSMCやMicronなどと協力し、DDR5専用のAIサーバーでDDR4メモリを安定的に動作させる暫定策を開発。このツギハギ方式は実証試験で高い安定性を示し、データセンター建設の遅延を回避している。....

人形玩偶もAIメンターになれる？MONTEE AI、初期資金調達を完了、年末までに収益1000万円を目指す

MONTEE AIが初回資金調達完了。AI大規模言語モデルと人形を融合したインタラクティブストーリーテラーを開発。徐匯資本がリード投資家。資金は研究開発・量産・販促に充当。2025年上海設立、家庭向けにAIの創造性を注入。....

ボタン音声生成モデル1.0を発表：一言で映画級の音声を作成。キャラクターの声でも10分間繰り返しにならない

関連推奨

AIコストの暴走警報：大手企業が次々にトラフィック制限を実施、エンドモデルは高級品に

サプライチェーンに屈しない！メタは台湾積電と米国メモリで新しいサーバーを実装

AIの発展が新しい時代に入り、オルトマンが世界全体で安心できる防衛体制を築くよう呼びかけ

人形玩偶もAIメンターになれる？MONTEE AI、初期資金調達を完了、年末までに収益1000万円を目指す

エージェントをどんどん強化できる：AReaL2.0がオープンソースに。自己進化型知能エージェント向けのRLインフラストラクチャを構築