AIが小説を「読む」だけでなく、感情豊かで役割が明確な多人数のオーディオドラマを自ら演出できるようになると、オーディオコンテンツ業界は画期的な転機を迎えています。最近、ドウバオ音声チームは**「AI多人有声劇」の自動生産ソリューション**を正式にリリースしました。これは、原始的小説テキストから完成品のラジオドラマに至るまで、エンド・トゥ・エンドの無人制作を初めて実現したものです。声優や編集作業、人間の介入を一切必要とせず、コストは急激に低下し、効率は飛躍的に向上し、その結果はプロ級のラジオドラマに匹敵する品質となっています。

98%のキャラクター認識精度、AIが人物の魂を演じる
このソリューションの核心的な突破点は、高自然度の多キャラクター音声合成(TTS)エンジンです。膨大な小説テキストと音声データを用いたマルチモーダル事前学習を通じて、AIは会話中の異なるキャラクターを正確に区別でき、キャラクターの分類精度は98%以上に達します。また、それぞれのキャラクターに性格、感情、シーンに合ったトーン、リズム、口調を付与できます。冷徹な悪役の低く重い笑い声や、少女の主人公の軽快で元気な様子など、AIは細かく演じ分け、従来のTTSによる「一人千面」の機械的な感覚から脱却します。
さらに進んで、システムは背景音楽、環境サウンド効果、カットオフエフェクトをスマートに追加できます。雨夜の戦闘には雷の音と足音の反響を、宮廷での会話には古琴とろうそくの音を添えることで、映画レベルの没入感のある聴覚体験を提供します。
番茄小說で最初の実装、ユーザーの反応は予想を上回る
この技術は、字節(テンセント)傘下の「番茄小說」アプリで最初の商業化展開が完了しました。最初にAIによって生成された多人数のオーディオドラマがリリースされると、すぐに読者から熱烈な評価を得ました。「専門の声優チームが作ったラジオドラマのように聞こえる」「キャラクターの切り替えが違和感がない」「更新速度が人工より10倍早い」といった声が上がりました。これにより、プラットフォームのコンテンツ供給が大幅に豊かになり、膨大な中長尾小説が初めて高品質なオーディオ化の可能性を手に入れることが可能となりました。
「聴きやすい」から「良い音」へ、AIが文化生産チェーンを再構築
ドウバオ音声チームは、今後感情表現、地方言語のサポート、多言語対応のさらなる最適化を進め、スリラー、SF、恋愛などの多くのジャンルにも拡張していく予定です。小説が毎日更新されるように、オーディオドラマも同時にリリースできるため、本当に「文字の公開と同時に音声が利用可能」になることを目指しています。
現在、音声コンテンツの需要が爆発的に増加している中、伝統的なオーディオブック制作は高いコストと長いサイクルにより、膨大なウェブ小説をカバーすることが困難でした。しかし、ドウバオの完全自動化ソリューションは、この業界の課題を解決し、さらにAIネイティブな音声コンテンツ時代の到来を示しています。未来では、どの小説にも独自の「AI劇団」が存在し、聴衆はこれまでになかった豊富で即時的で高品質な聴覚の饗宴を楽しむことができるでしょう。
