AI動画生成が注目されている現在、「映像はあるが音声がない」や「音声が映像と合っていない」は、没入感を妨げる最後の障壁である。この課題に取り組み、アリババ・トングイ研究所は最近、新たな動画生成音声(Video-to-Audio)フレームワークであるPrismAudioを発表しました。この研究は最高レベルのAI会議ICLR2026で採択され、動画にぴったりの環境音効果を自動的に付与することを目的としています。

まず考え、その後発声する:「思考プロセス」を取り入れたナレーターの達人
従来のナレーションモデルは「直感的」に生成されるため、馬が地面に着いたときに鳥の鳴き声が聞こえたり、音声が映像より少し遅れたりといった状況が起こりがちです。PrismAudioの革新点は、「まずノートを書き、その後発声する」ことを学んだことです。
分解型の思考プロセス: 音声を生成する前に、モデルは動画の内容を分析します。画面には何がありますか?音声はいつ始まりますか?音質はクリアなのか、低く重いのか?音源は左側にあるのか、右側にあるのか?
4つの先生による評価: 質を確保するために、開発チームは強化学習を導入し、4人の「仮想の先生」が意味の一貫性、時系列の同期性、芸術的な質、空間的な正確さの4つの観点から同時に評価を行います。このような多次元のフィードバックメカニズムにより、従来のモデルで起こりがちな「片方だけを考慮する」という問題が解決されました。
軽量かつ効率的:9秒の動画の音声をわずか0.6秒で生成
PrismAudioは、音声を正確に生成するだけでなく、非常に高速にも対応しています。独自のFast-GRPO効率的なトレーニングアルゴリズムによって、性能が飛躍的に向上しながらも、非常に高い実行効率を維持しています:
小サイズながら大出力: モデルパラメーターはわずか5億1800万で、通常数十億のパラメータを持つ他のモデルよりも圧倒的に少ない。
超高速応答: 9秒の高品質なオーディオを生成するのにわずか0.63秒
業界の視点:環境音効果の「本物」の時代
PrismAudioの登場により、映画の後期処理やショートビデオ制作において強力な自動化ツールを提供するとともに、複数の目標を持つ生成タスクに対する新しいアイデアを提示しました。AIが音声の質と空間感を正確に調整できるようになれば、今後の動画制作は本当に「見えるものすべてが聞こえる」時代を迎えることになります。
論文のURL: arXiv:2511.18833
オープンソースのURL: https://prismaudio-project.github.io/
