新模型 CoMPaSS-FLUX.1：提升Flux文本到圖像生成的空間理解能力

近日，來自研究團隊的一項新成果引起了廣泛關注 ——CoMPaSS-FLUX.1模型。這是一種基於 FLUX.1文本到圖像擴散模型的 LoRA 適配器，旨在顯著提升生成圖像時對物體空間關係的理解能力。該模型在處理物體的特定空間關係方面取得了顯著進展，爲圖像生成領域帶來了新的可能性。

CoMPaSS-FLUX.1的基礎模型爲 FLUX.1-dev，其 LoRA 等級爲16，文件大小約爲50MB，使用了 Diffusers 框架。它的主要用途是生成具有準確空間關係的圖像，能夠創造需要特定空間排列的構圖，同時在保持其他能力的基礎上增強空間理解能力。

在性能表現上，CoMPaSS-FLUX.1的關鍵改進令人矚目。根據 VISOR 基準測試，該模型的相對提升達到了98%;在 T2I-CompBench 空間測試中，提升幅度爲67%;而在 GenEval 位置評估中，更是達到了131% 的相對改善。此外，CoMPaSS-FLUX.1在圖像保真度上也表現不俗，FID 和 CMMD 分數均低於基礎模型，表明其在生成質量上有所提升。

使用該模型時，用戶可以參考其有效提示。模型在描述空間關係時表現最佳，特別是當提示中包含清晰的空間關係描述（如 “左邊”、“右邊”、“上面”、“下面”）時，或者是包含兩個不同物體的明確空間關係描述(例如 “照片中 A 在 B 的右邊”)。

在訓練過程中，CoMPaSS-FLUX.1使用了來自 SCOP（空間約束導向配對）數據引擎的數據，涵蓋了約28，000個經過精心挑選的物體對。這些數據在視覺重要性、語義區別、空間清晰度、物體關係和視覺平衡等方面都有嚴格的標準。

訓練過程持續了24，000步，使用了批量大小爲4的配置，學習率設定爲1e-4，並採用了 AdamW 優化器，權重衰減設定爲1e-2。

huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1

劃重點:
🌟 CoMPaSS-FLUX.1模型顯著提升了文本到圖像生成時的空間理解能力，特別是在物體之間的關係處理上。
📊 性能評估顯示該模型在多個基準測試中都有明顯的提升，保持了高質量的生成效果。
📚 模型訓練使用了嚴格篩選的數據集，確保生成的圖像在視覺上具有良好的空間關係和清晰度。

一張圖秒變AI風格神器！Qwen-Image-i2L顛覆圖像生成，零門檻LoRA訓練來襲

阿里通義實驗室推出開源工具Qwen-Image-i2L，可將單張圖片快速轉化爲可微調的LoRA模型，大幅降低個性化風格遷移門檻。用戶只需上傳一張圖片，無需大量數據或昂貴算力，即可生成輕量級LoRA模塊，並集成到其他生成模型中，實現高效“單圖風格遷移”。該技術已在AI社區引發廣泛關注。

告別 “亂畫圖表”，港中文團隊推出首個結構化圖像生成系統！

香港中文大學MMLab聯合北航、上交等推出結構化圖像生成編輯系統，突破AI在圖表、公式等結構化圖像生成瓶頸。現有模型如FLUX.1和GPT-Image雖在自然圖像生成表現優異，但處理結構化圖像時數據準確性與邏輯性不足。該系統填補了這一技術空白，推動AI在數據可視化領域的發展。

OminiControl Art發佈:將GPT-4o的吉卜力等藝術風格提煉至FLUX模型

2025年4月9日，一項名爲“OminiControl Art”的全新技術正式亮相，引起了人工智能與藝術創作領域的廣泛關注。該技術基於 OminiControl 框架開發，能夠將 OpenAI GPT-4o 模型的藝術風格成功提煉並融入到 FLUX.1模型中，爲 AI 生成藝術開闢了新的可能性。這一發布不僅展示了技術上的突破，也爲用戶提供了一種優雅而高效的工具，用於生成高質量的藝術圖像。OminiControl Art 的核心在於其對 GPT-4o 藝術風格的“蒸餾”（distillation）。GPT-4o 作爲 OpenAI 的旗艦多模態模型，以其強大的圖像生成能力和細膩的風

Remade AI 開源 8 款 Wan2.1 特效 LoRA，掀起 AI 視頻創作新熱潮

3 月 12 日，AI創新團隊Remade AI 在Hugging Face平臺震撼發佈 8 款基於Wan2. 1 模型的開源特效LoRA，引發科技圈廣泛關注。這 8 款特效包括“擠壓”（Squish）、“蛋糕化”（Cakeify）、“膨脹”（Inflate）、“縮小”（Deflate）、“射擊”（Shooting）、“旋轉”（Rotate）、“肌肉增強”（Muscle）和“壓扁”（Crush），爲AI視頻生成注入全新創意可能。Wan2. 1 作爲阿里巴巴開源的頂尖視頻生成模型，以其高效性和多功能性備受推崇。Remade AI此次推出的LoRA模塊，基於Wan2.1 14B I2V 480p模型訓練，能夠將靜態圖像轉

新模型 CoMPaSS-FLUX.1：提升Flux文本到圖像生成的空間理解能力

相關推薦

螞蟻、紅杉注資 2000 萬美元，Mindverse 開啓“一人一模型”個性化新賽道

一張圖秒變AI風格神器！Qwen-Image-i2L顛覆圖像生成，零門檻LoRA訓練來襲

告別 “亂畫圖表”，港中文團隊推出首個結構化圖像生成系統！

OminiControl Art發佈:將GPT-4o的吉卜力等藝術風格提煉至FLUX模型

Remade AI 開源 8 款 Wan2.1 特效 LoRA，掀起 AI 視頻創作新熱潮