人工知能スタートアップのIdeogramは、今月初めて注目を集めたIdeogram 4.0オープンソーステキストから画像生成モデルを発表しました。権威あるランキングデータおよび多数の視覚テストに基づき、このモデルは業界内で世界で最も強力なオープンソース画像生成AIと公認されています。そのコア規模は93億パラメータに達し、最近の先端オープンソースモデルの主流である単一フロー構造を採用しており、テキストと画像のトークンが同じ自己注意シーケンスの中でスムーズに統合されています。

image.png

レイアウトのプロ、これが本当のポスターの達人です

技術的な構造面では、Ideogram 4.0は最先端のQwen3-VL-8B-Instructテキストエンコーダー、34層の単一流拡散Transformer(DiT)、そしてEuler流マッチングサンプラーを組み合わせています。このような深い構造の革新により、このモデルは画像内での長文の正確な描画能力を備えています。従来の画像生成モデルがよく起こす文字のミスやスペルミスなどの欠点とは異なり、新しいモデルは非常に明確で正確な文字を生成でき、ビジュアルレイアウト、カバー設計、テキストポスター作成に最適です。

画像内の要素配置をより合理的にするために、研究開発チームはトレーニング中にオブジェクトとテキストの境界ボックスデータを追加しました。構造化されたJSON字幕データとの併用により、Ideogram 4.0は空間関係に対する強い理解力を示しています。ユーザーは今や、プロンプトを通じて、全体的なレイアウト、各オブジェクトの位置、テキストのレイアウトを非常に正確に指定できます。これにより、以前のように「抽選」のような無作為性に頼る画像生成の時代は終わりました。

image.png

盲測でランキングに登場、世界第4位

公式に提示された例は、Ideogram 4.0が生成する画像の質が非常に高く、複雑な人物、繊細なシーン、さまざまな商業デザインを簡単に扱えることを示しています。これは画像制作やSNS素材の作成にとって大きな利便性をもたらします。有名なグラフィック評価プラットフォームDesignArenaの最新ランクでは、Ideogram 4.0の表現はナノバナナプロを上回り、世界第4位に躍り出ました。

注目すべきは、このランクはモデル名が完全に隠されており、人間の審査者が純粋な視覚効果に基づいて盲測で評価していることです。この純粋な人の感覚に基づく評価方法は非常に高品質で信頼性が高く、Ideogram 4.0がオープンソース画像生成分野において他の追随を許さない優位性を証明しています。