アップルは最近、画像の理解と生成を同時に処理することを目的とした新しい画像モデル「Manzano」を研究で紹介しました。この二重の能力は現在多くのオープンソースモデルが直面している技術的な課題であり、アップルによると、これにより画像処理の効率と効果が、OpenAI やグーグルなどの商業システムに近づいたと述べています。

image.png

現在、Manzano は公開されておらず、公開されたデモもありません。しかし、アップルの研究チームは論文を共有し、いくつかの低解像度の画像サンプルを添えて、モデルが複雑なプロンプトを処理する能力を示しています。これらのサンプルは、オープンソースモデルであるDeepseek Janus Proや商業システムであるGPT-4o、Gemini2.5Flash Image Generation(通称「Nano Banana」)の出力と比較されています。3つのチャレンジングなプロンプトのテストでは、Manzano の性能はOpenAIのGPT-4oやグーグルのNano Bananaと同等でした。

アップルは、現在の大多数のオープンソースモデルの主な制限は、強力な画像分析と生成能力の間で選ばなければならないことにあると指摘しています。商業システムは両方を同時に実現できるのです。特に大量のテキストを含むタスク、例えばファイルの読み込みや図表の解釈において、既存のモデルは特に弱いです。

Manzano の設計には、連続トークンと離散トークンの両方を出力する混合画像トークナイザが採用されています。連続トークンは浮動小数点数で画像を表し、理解に使用されます。一方、離散トークンは画像を固定カテゴリに分割して生成に使用します。両方のトークンは同じエンコーダーから取得されるため、従来モデルで発生しうる衝突が減少します。

トレーニング段階では、Manzano は連続および離散アダプターを使用して言語モデルのデコードを調整します。推論時には、画像の理解と生成に必要な2つのデータフローを提供します。Manzano のアーキテクチャは主に3つの部分から構成されています:混合トークナイザ、統一された言語モデル、および最終的な出力用の独立した画像デコード器です。アップルは、0.9億、1.75億、3.52億のパラメータを持つ3種類の画像デコード器を構築し、256〜2048ピクセルの解像度をサポートしています。

アップルのテスト結果によると、Manzano は複数のベンチマークテストで優れたパフォーマンスを示しており、特にテキストが密集しているタスク、例えば図表やファイルの分析では、30億パラメータバージョンの得点が特に際立っています。また、モデルのパラメータ数が3億から30億に増加するにつれて、パフォーマンスが継続的に向上することが研究で確認されました。

image.png

Manzano は古典的な画像編集タスクだけでなく、プロンプトベースの編集、スタイル移行、画像埋め込み、拡張、深度推定などの新しいタスクも実行できます。アップルは、Manzano が既存のモデルの実用的な代替手段であり、そのモジュール化された設計が今後のマルチモーダルAIに深い影響を与える可能性があると考えています。

論文: https://arxiv.org/abs/2509.16197

ポイント:  

🌟 Manzano は、画像の理解と生成の両方を行う新しい画像モデルです。

🔍 アップルの研究では、Manzano が複雑なテキストタスクを処理する際に優れた性能を発揮し、商業システムに近いレベルであることが示されています。

⚙️ このモデルは、画像の理解と生成の間に発生する衝突を減らす混合画像トークナイザを採用しています。