長年にわたって、人工知能の分野では技術的な課題が存在していました。すなわち、「画像を理解する」ことと「画像を生成する」ことを同時に実現することが難しいという問題です。通常、画像の内容(視覚的理解)を分析するのが得意なモデルは、頭から高品質な画像を生成する際には力不足になりがちで、逆もまた然りです。しかし、アップル社が最新に発表した研究論文により、マルチモーダルモデル「Manzano」というものが登場し、この問題を根本的に解決しようと試みています。

image.png

Manzanoの核心的な突破点は、その画期的な「二重修得」アーキテクチャです。研究者によると、従来の視覚理解は連続的なデータフローを好む一方、画像生成は離散的なデータブロックに依存しています。これにより、モデルが両方のタスクを同時に処理する際に衝突が生じがちです。ほぼ損失のない統合を実現するために、Manzanoは「ハイブリッドビジョントークナイザ」を導入しました。これは、連続的および離散的な視覚表現を同時に生成し、大規模言語モデルで画像の意味を予測し、最後に拡散デコードによってピクセル単位の詳細なレンダリングを行うものです。

image.png

実際のテストでは、Manzanoは驚くほどの論理的理解力を示しました。「鳥が象の下で飛ぶ」というような常識に反する複雑な指示に対しても、GPT-4oなどのトップモデルと同等の性能を発揮しました。さらに、このモデルは絵を描くだけでなく、深度推定やスタイル変換、画像修復など多くの複雑なタスクにも対応しています。

現在、Manzanoはまだ研究段階ですが、AIbaseはこの基盤技術の完成度がアップルの今後のAI機能をより強力にする兆しであると考えています。この技術は、アップルの「Image Playground(図乐园)」などのツールに組み込まれる可能性があり、ユーザーによりスマートで創造性豊かな創作体験を提供するでしょう。

プロジェクト: https://machinelearning.apple.com/research/manzano

ポイント:

  • 👁️ 多機能なアーキテクチャ:Manzanoは革新的な3段階構造を採用しており、「視覚理解」と「画像生成」の機能を成功裏に統合し、従来のモデルが困難だった両者の衝突を解決しました。

  • 🧠 論理の優位: 反直感的で複雑な空間関係を扱う指示において、Manzanoの論理的正確さは業界最高水準に達しており、GPT-4oなどの主流モデルと同等の性能を発揮しています。

  • 🚀 大きな潜在能力: このモデルは、3億から300億のパラメータにわたる柔軟な拡張が可能であり、今後iPhoneやMacなどのエッジ端末におけるAI描画・編集能力を大幅に向上させることが期待されます。