AI 圖像生成平臺 Ideogram 於6月3日正式發佈開放權重文生圖模型 Ideogram4.0。根據官方公佈的基準測試結果,該模型已成爲當前性能領先的開源圖像生成模型之一,並在文字生成與版式控制能力方面實現顯著提升。
Ideogram4.0核心規模達到93億參數(9.3B),採用近年來主流開源模型普遍使用的單流(Single-Stream)架構設計,讓文本 Token 與圖像 Token 在統一的自注意力序列中進行聯合建模,從而提升文本與視覺內容之間的協同生成能力。同時,模型將設計可控性作爲核心目標,在訓練和推理階段均強化了佈局、排版和視覺元素控制能力。

在技術架構上,Ideogram4.0由 Qwen3-VL-8B-Instruct 文本編碼器、34層可訓練單流擴散 Transformer(DiT)、Euler Flow Matching採樣器以及凍結的KL自動編碼器組成。這一組合使模型能夠兼顧圖像質量、文本理解和生成效率。
官方展示的案例顯示,Ideogram4.0可生成人物、場景、商業設計、海報和品牌視覺等多種類型圖片。其中,文字渲染能力成爲本次升級最大亮點。相比傳統文生圖模型經常出現文字錯亂、拼寫錯誤等問題,Ideogram4.0能夠更準確地在圖像中呈現長文本內容,對於海報設計、商品展示圖、封面製作以及社交媒體營銷素材等場景具有較高實用價值。

爲了增強版式控制能力,Ideogram在訓練過程中引入了對象與文本邊界框(Bounding Box)數據,使模型能夠理解圖像元素之間的空間關係。同時結合結構化JSON字幕數據進行訓練,用戶可以通過提示詞更精準地控制對象位置、文本佈局以及整體排版結構,實現更接近專業設計工具的創作體驗。
在第三方評測方面,DesignArena最新榜單顯示,Ideogram4.0已超越Nano Banana Pro,位列全球第四。DesignArena採用隱藏模型身份後由人工評審對生成結果進行盲測打分,因此能夠較好反映真實用戶對圖像質量和視覺表現力的主觀評價。
隨着開源圖像生成模型競爭持續升溫,Ideogram4.0憑藉領先的文字生成能力和設計可控性,正在成爲海報製作、品牌營銷和視覺內容創作領域值得關注的新選擇。
地址:https://github.com/ideogram-oss/ideogram4
