AI動画生成分野に画期的な突破が生じました!Lightricksチームは正式にLTX-2モデルをオープンソース化しました。これは、初めて真正な完全なオープンソースの音声・映像基礎モデルとされ、一度に最大20秒間の4K高精細動画を生成し、画面上の描写、音声、口元、環境音、音楽を完璧に同期させることができます。AIbase編集チームは最新のネットワーク動向を整理し、詳細な解説を提供します。

 オープンソース大プレゼント:重み値とコードをすべて公開、コミュニティが歓喜

LTX-2モデルの重み値、完全なトレーニングコード、ベンチマークテストおよびツールキットがすべてオープンソース化され、GitHubとHugging Faceにホスティングされています。開発者は自由にチェック、微調整、ローカルでの展開が可能です。このモデルはDiT混合アーキテクチャに基づいており、テキストからビデオ、画像からビデオ、複数のキーフレーム制御、3Dカメラロジック、LoRA微調整をサポートしています。最新の動向によると、ComfyUIはリリース当日(Day0)からLTX-2をネイティブでサポートしており、準備されたワークフローにより、導入のハードルが大幅に低下しています。NVIDIA RTXエントリー級グラフィックカードを最適化した後、生成効率が大幅に向上し、一般ユーザーは企業向けハードウェアを使わずにプロ仕様の出力を体験できます。

image.png

 コアの特徴:音声と映像を一体化し、後処理なしで生成

従来のモデルのように別々に音声を組み立てる必要がなく、LTX-2は一連のプロセスの中で視覚と音声を一緒に生成し、動作、会話、環境音効果、音楽を自然に一致させます。4K解像度をネイティブでサポートし、最高50fpsのフレームレート、最大20秒の連続セグメントをサポートしています。実際のテストでは、口元の同期や表情表現が特に優れており、人物の会話シーンは非常にリアルです。また、複雑な指示にも高い一貫性を維持し、肌質や運動の滑らかさが多くのオープンソース競合製品よりも顕著に優れています。入力モードは柔軟で、テキスト、画像、またはスケッチをもとに生成が可能であり、ショートフィルム、広告、コンテンツ制作に適しています。

 性能最適化:より速く、よりリソースを節約し、ローカルでの運用に優しい

前世代や一部の競合製品と比較して、LTX-2の計算コストは最大50%低減されており、マルチGPU推論スタックにより長時間のシーケンス拡張が可能です。量化バージョンはさらにVRAMの要件を下げており、RTX40シリーズ以上のGPUでスムーズに動作します。コミュニティからのフィードバックによると、10〜20秒の動画生成には数分しかかかりず、リアルタイムプレビューが可能になることもあります。これは、高級AI動画生成がクラウドの閉鎖的構造からローカルのオープンソース民主化へと移行するきっかけとなり、クリエイターの門檻を大きく下げます。

 応用可能性無限大:個人創作からプロ制作まで

LTX-2はコンテンツ制作、アニメーション、マーケティング、映画の事前演出などさまざまな分野において強力な可能性を示しています。Canny、Depth、Poseなどのビデオからビデオへの制御をサポートし、キーフレーム駆動と組み合わせて、正確な物語とスタイルの一貫性を実現できます。今後、コミュニティによるLoRAやプラグイン拡張によって、このモデルはオープンソースAI動画エコシステムの中心的なエンジンとなる可能性があり、短編動画から長編コンテンツまでの革新を推進するでしょう。

AIbaseの見解:LTX-2のオープンソース化は技術的な飛躍だけでなく、AI動画の民主化の重要な一歩でもあります。これにより、オープンソース領域における音声と映像の統合生成の空白が埋められ、ローカルAIツールの普及が加速されるかもしれません。AIbaseは引き続きそのコミュニティの発展と実際の応用を注目し、今後の報道をお楽しみにください。