今日は、Wan2.5-Preview が正式リリースされ、この新しいAIモデルは画期的なアーキテクチャと強力な機能により、視覚生成の未来を再構築することを目指しています。この新モデルは、マルチモーダル処理、動画生成、画像編集において大きな進歩を遂げています。
ネイティブなマルチモーダルアーキテクチャと深い対応
Wan2.5-Preview は、テキスト、画像、動画、音声の柔軟な入力と出力を実現する新たな統一した理解・生成フレームワークを採用しています。これらのモーダルデータを共同で訓練することで、より強力なモーダル対応が可能となり、音声と映像の同期や指示に正確に対応することが可能です。さらに、このモデルは**人間のフィードバックによる強化学習(RLHF)**によって最適化されており、生成された画像の品質や動画のダイナミックさが人間の美的嗜好に合致するように調整されています。

動画機能:音声と映像の同期と映画のような美学
動画生成に関して、Wan2.5-Preview はいくつかの革新をもたらします:
A/Vの同期生成:高保真度かつ高一貫性のある動画生成をネイティブにサポートし、複数の人声、効果音、バックグラウンドミュージック(BGM)なども同時に生成できます。
制御可能なマルチモーダル入力:ユーザーはテキスト、画像、音声を入力ソースとして使用でき、無限のクリエイティブな組み合わせが可能です。
映画のような美学:モデルが生成する1080pの高精細10秒間の動画は、強力な動的および構造的な安定性を持ち、映画コントロールシステムがアップグレードされており、映画的な美しさを持つ作品を作成できます。
画像機能:創造性と正確な制御
Wan2.5-Preview は画像生成と編集においても大幅に向上しています:
高度な画像生成:モデルは指示の遵守能力が著しく改善され、本物らしい画像、多様な芸術スタイル、創造的なレイアウト、プロフェッショナルな図表を生成できます。
画像編集:会話型で指示に基づく画像編集をサポートし、ピクセル単位の精度を実現し、多概念融合、素材変換、製品の色の交換などの複雑なタスクが可能です。
Wan2.5-Preview
