近日,來自研究團隊的一項新成果引起了廣泛關注 ——CoMPaSS-FLUX.1模型。這是一種基於 FLUX.1文本到圖像擴散模型的 LoRA 適配器,旨在顯著提升生成圖像時對物體空間關係的理解能力。該模型在處理物體的特定空間關係方面取得了顯著進展,爲圖像生成領域帶來了新的可能性。

CoMPaSS-FLUX.1的基礎模型爲 FLUX.1-dev,其 LoRA 等級爲16,文件大小約爲50MB,使用了 Diffusers 框架。它的主要用途是生成具有準確空間關係的圖像,能夠創造需要特定空間排列的構圖,同時在保持其他能力的基礎上增強空間理解能力。
在性能表現上,CoMPaSS-FLUX.1的關鍵改進令人矚目。根據 VISOR 基準測試,該模型的相對提升達到了98%;在 T2I-CompBench 空間測試中,提升幅度爲67%;而在 GenEval 位置評估中,更是達到了131% 的相對改善。此外,CoMPaSS-FLUX.1在圖像保真度上也表現不俗,FID 和 CMMD 分數均低於基礎模型,表明其在生成質量上有所提升。
使用該模型時,用戶可以參考其有效提示。模型在描述空間關係時表現最佳,特別是當提示中包含清晰的空間關係描述(如 “左邊”、“右邊”、“上面”、“下面”)時,或者是包含兩個不同物體的明確空間關係描述(例如 “照片中 A 在 B 的右邊”)。
在訓練過程中,CoMPaSS-FLUX.1使用了來自 SCOP(空間約束導向配對)數據引擎的數據,涵蓋了約28,000個經過精心挑選的物體對。這些數據在視覺重要性、語義區別、空間清晰度、物體關係和視覺平衡等方面都有嚴格的標準。
訓練過程持續了24,000步,使用了批量大小爲4的配置,學習率設定爲1e-4,並採用了 AdamW 優化器,權重衰減設定爲1e-2。
huggingface:https://huggingface.co/blurgy/CoMPaSS-FLUX.1
劃重點:
🌟 CoMPaSS-FLUX.1模型顯著提升了文本到圖像生成時的空間理解能力,特別是在物體之間的關係處理上。
📊 性能評估顯示該模型在多個基準測試中都有明顯的提升,保持了高質量的生成效果。
📚 模型訓練使用了嚴格篩選的數據集,確保生成的圖像在視覺上具有良好的空間關係和清晰度。
