Ideogram4.0開源發佈:93億參數打造最強文字生成AI，DesignArena全球第四

AI 圖像生成平臺 Ideogram 於6月3日正式發佈開放權重文生圖模型 Ideogram4.0。根據官方公佈的基準測試結果，該模型已成爲當前性能領先的開源圖像生成模型之一，並在文字生成與版式控制能力方面實現顯著提升。

Ideogram4.0核心規模達到93億參數（9.3B），採用近年來主流開源模型普遍使用的單流(Single-Stream)架構設計，讓文本 Token 與圖像 Token 在統一的自注意力序列中進行聯合建模，從而提升文本與視覺內容之間的協同生成能力。同時，模型將設計可控性作爲核心目標，在訓練和推理階段均強化了佈局、排版和視覺元素控制能力。

在技術架構上，Ideogram4.0由 Qwen3-VL-8B-Instruct 文本編碼器、34層可訓練單流擴散 Transformer（DiT）、Euler Flow Matching採樣器以及凍結的KL自動編碼器組成。這一組合使模型能夠兼顧圖像質量、文本理解和生成效率。

官方展示的案例顯示，Ideogram4.0可生成人物、場景、商業設計、海報和品牌視覺等多種類型圖片。其中，文字渲染能力成爲本次升級最大亮點。相比傳統文生圖模型經常出現文字錯亂、拼寫錯誤等問題，Ideogram4.0能夠更準確地在圖像中呈現長文本內容，對於海報設計、商品展示圖、封面製作以及社交媒體營銷素材等場景具有較高實用價值。

爲了增強版式控制能力，Ideogram在訓練過程中引入了對象與文本邊界框（Bounding Box）數據，使模型能夠理解圖像元素之間的空間關係。同時結合結構化JSON字幕數據進行訓練，用戶可以通過提示詞更精準地控制對象位置、文本佈局以及整體排版結構，實現更接近專業設計工具的創作體驗。

在第三方評測方面，DesignArena最新榜單顯示，Ideogram4.0已超越Nano Banana Pro，位列全球第四。DesignArena採用隱藏模型身份後由人工評審對生成結果進行盲測打分，因此能夠較好反映真實用戶對圖像質量和視覺表現力的主觀評價。

隨着開源圖像生成模型競爭持續升溫，Ideogram4.0憑藉領先的文字生成能力和設計可控性，正在成爲海報製作、品牌營銷和視覺內容創作領域值得關注的新選擇。

地址：https://github.com/ideogram-oss/ideogram4

Ideogram4.0開源發佈:93億參數打造最強文字生成AI，DesignArena全球第四

相關推薦

OpenRouter把語音轉錄塞進同一個API：一份key搞定聊天和轉寫，Whisper與按token計價STT一併接入

太空數據砸進AI！馬斯克掏出SpaceX家底， 2 萬億參數Grok大模型即刻煉成

真假視頻一鑑便知！英偉達推出SVD檢測服務，識別AI造假準確率高達92%

Substack 接入 Pangram 檢測工具，上線網頁與移動端 AI 文本識別功能

三星擬擲 10 億歐元押注Mistral：歐洲AI獨立的底氣，正被資本重新定價