本日、通義千問チームは新規の画像生成モデル「Qwen-Image-Layered」を正式にリリースしました。このモデルは自社で開発した革新的なアーキテクチャにより、従来のAI画像編集の限界を打ち破り、「レイヤー分解」技術によって静的画像に編集可能性を付与し、「指さすと変える」ことができる正確な編集の新時代を開きます。

QQ20251222-155312.png

現在のAI画像編集には2つの課題があります。全体編集は編集していない領域の一貫性を破壊しやすく、マスクに基づく局所編集では遮蔽やぼかれた境界が難しいです。Qwen-Image-Layeredは画期的な「画像分離」の考え方を提案し、画像を自動的に「玉ねぎ剥き」のように語義的に独立したRGBAレイヤーに分解します。各レイヤーには独自の色(RGB)と透明度(Alpha)があり、他のレイヤーに影響を与えずに個別に操作できます。

モデルの主要な特徴は顕著です。新しいRGBA-VAE技術により、RGB画像とRGBAレイヤーが同じ潜在空間で「会話」することができ、レイヤーの分布不均一や境界の曖昧さという問題を解決します。VLD-MMDiT構造は3〜10層以上の柔軟な処理をサポートし、レイヤー間は注目メカニズムを通じて協調して動作し、低効率な再帰的分解が必要ありません。多段階の進化を通じて「単一画像生成 - 多層生成 - 任意のRGB画像の分解」を経て、生成能力から理解能力への転換を実現しました。

応用面では、このモデルは再着色、オブジェクト交換、テキスト修正、要素削除、拡大・移動などの操作が可能です。特に注目すべきは、可変数のレイヤー分解をサポートしており、同じ画像を3レイヤーまたは8レイヤーに分割でき、どのレイヤーもさらに再帰的に分解できるため、無限の階層の詳細化が可能になります。

現在、Qwen-Image-Layeredの技術報告書、コードリポジトリ、およびデモはそれぞれarXiv、Github、ModelScopeなどのプラットフォームに公開されています。通義千問チームは、このモデルを通じて画像を組み合わせ可能なレイヤーに再構築し、ユーザーに直感的で正確かつ頑丈な画像編集機能を提供したいと考えています。

技術報告書:

https://arxiv.org/abs/2512.15603

Github: 

https://github.com/QwenLM/Qwen-Image-Layered 

ModelScope: 

https://www.modelscope.cn/models/Qwen/Qwen-Image-Layered

Hugging Face: 

https://huggingface.co/Qwen/Qwen-Image-Layered

Demo: 

https://www.modelscope.cn/studios/Qwen/Qwen-Image-Layered