AI動画生成と編集分野において、基本的な論理が再構築されています。バイチューテンの商業化技術チームは最近、動画生成および動画編集を対象とした統一フレームワークとして、Berniniを正式にオープンソース化しました。このフレームワークのコアは、「理解してから生成する」協働メカニズムを特徴とし、従来のモデルが複雑なテキスト指示を正確に理解できないために生じる画像の制御不能やフレーム間の点滅などの業界の問題を解決することを目的としています。

従来の動画編集では、主体の変形や背景の移動、動作の断絶などの技術的限界に直面することがあります。この状況を打破するために、Berniniは作業フローを「セマンティック計画」と「ビジュアルレンダリング」の2つの部分に巧妙に分割しています。システムはまず、マルチモーダル大規模モデルプランナー(MLLMベースのプランナー)を使用してテキスト、動画、参照画像などの入力素材を深く解析し、特徴空間でターゲットセマンティック表現を予測します。これは、ピクセルに制限されない「セマンティックスケッチ」としての概略図を描き出すことを意味します。その後、Diffusion Transformerに基づくレンダラー(DiTベースのレンダラー)が高品質なビジュアルレンダリングを行い、計画されたセマンティック目標を安定で連続的な動画画面に変換します。

image.png

このような分業により、Berniniは制御可能な編集において非常に高い実用価値を示しています。ユーザーは1つの指示で、画面内の天候、季節、素材、ビジュアルスタイルを現実的で自然に変化させることができます。また、カメラの視点、焦点、主体の動作を正確なセマンティック制御で行うことも可能です。例えば、環境とカメラの高さを保持したまま、動画中の動物の動作を自然に変化させることができ、AIによる動画編集が伝統的な後処理ソフトウェアに近づきます。

テキスト操作だけでなく、Berniniは画像や動画も視覚的参照としてサポートしており、創作の一貫性を大幅に向上させます。動画編集のシナリオでは、特定の素材、指定された主体、あるいは広告ポスターを動画素材に正確に埋め込むことが可能で、境界を破らなかったり、透視を乱れたりすることなく、その場所に配置できます。一方、新しい動画生成のシナリオでは、単一画像の参照生成、多角度からの参照生成、キーフレームから連続的なシーンへの進化、そして互いに関係のない製品画像を完璧に1つの動画キャラクターに組み合わせることさえ可能です。

複数のビジュアルセグメントをつなげる際のモデルが混乱しやすいという問題を解決するために、チームはSA-3D RoPE位置符号化機構を導入し、異なるビジュアルセグメントに専用のマーカーを付与することで、タイム・スペースの位置関係を維持しつつ、参照素材と出力目標を明確に区別しています。現在、バイトダン自身のテストでは、このフレームワークは業界の第一線に位置しています。また、Bernini