アリババクラウドはAIGCオープンソースエコシステムへの投資を継続しています。本日、通義ラボは最新の画像編集モデル「Qwen-Image-Edit-2511」を正式にオープンソース化しました。このモデルは、前バージョン(2509)で発生していた「画像編集後の軽微なズレ」問題(つまり、編集領域内の人物や物体の位置がずれる現象)を重点的に解決することを目的としています。複数の技術的な最適化を通じて、編集前後の一貫性と視覚的な安定性を著しく向上させ、開発者により信頼性があり正確な制御生成ツールを提供します。
課題に直面:「編集するたびに歪んでいく」体験から卒業
初期バージョンであるQwen-Image-Edit-2509では、ユーザーからのフィードバックによると、部分的な修正(例えば服の交換、髪型の調整、背景の変更)を行う際、対象オブジェクトが微妙ですが明確にずれたり、形が変わったりすることがありました。これにより、画像全体の調和が損なわれました。Qwen-Image-Edit-2511は空間の整合性と構造保持能力を強化し、指定された領域のみに編集が作用し、他の部分は「一切動かない」ようにすることで、「思い通りに編集できる」という正確なコントロールを実現しています。
技術の進化:一貫性を核に、生成品質にも配慮
新バージョンでは以下の点で重要な強化が行われています:
- 構造的一貫性の最適化:改善された参照注目メカニズムを取り入れ、元の画像の幾何構造の制約を強化しています。
- 細部の忠実度の向上:ピクセルレベルでの修復において、テクスチャ、照明、エッジの鋭さを維持しています。
- 指示と画像の一致の強化:複雑な編集指示(例:「女性に赤いベレー帽をかぶせ、帽子の位置は自然に」)をより正確に理解します。
オープンソースは力の源であり、AIGCツールチェーンの成熟を促進
Qwen-Image-Edit-2511はモデルの重みと推論コードを公開しており、テキスト指示やマスク画像を通じて編集が可能です。これはEC向けの衣装変更、映画の後処理、デザインのプロトタイプの繰り返し、SNS用の画像修正など多くのシナリオで広く利用できます。開発者はこのモデルに基づいて高精度な画像編集アプリケーションを迅速に構築でき、ゼロからトレーニングする必要はありません。
