阿里圖像生成模型Qwen2vl-Flux開源，支持圖像融合和風格轉移等

近日，阿里巴巴宣佈開源其最新研發的圖像生成模型 Qwen2vl-Flux，該模型不僅具備編輯、融合和混合等多種功能，還能夠在用戶輸入圖像或文本的情況下，生成具有高度相似性的全新圖像。

Qwen2vl-Flux 提供了強大的圖像變化功能。用戶只需輸入一張圖像，無需任何文本提示，模型便能根據原圖生成多幅相似的圖像。例如，用戶上傳一張人物照片，模型便可以生成多個角度下的人物表現，展現出不同的視角與情感。

模型還支持文本引導圖像混合。當用戶輸入一張圖片並附加相關文本提示時，Qwen2vl-Flux 能夠將輸入圖像與文本內容進行巧妙融合，創造出新的圖像效果。

除了上述功能，Qwen2vl-Flux 還具備圖像引導圖像混合的能力。用戶可以將兩張不同的圖像結合在一起，實現角色合體或場景轉換。例如，將一個角色與另一個背景相結合，模型能夠無縫融合兩者，形成新的視覺效果。

模型的網格風格遷移功能使得用戶能夠對圖像進行細緻的控制。用戶可以對圖像的特定部分進行修改，實現精細化創作。比如，在一幅展現高科技與自然環境結合的圖像中，用戶可以添加生物發光技術的細節，或者森林晨霧的效果，展現出更加豐富的視覺體驗。

項目入口:https://huggingface.co/Djrango/Qwen2vl-Flux

劃重點:
🌟 Qwen2vl-Flux 開源，具備強大的圖像生成和編輯能力。
🖼️ 支持圖像變化和文本引導圖像混合，創造出全新視覺效果。
🔍 提供圖像引導圖像混合和網格風格遷移，允許用戶進行精細控制。

打破算力壟斷：智譜聯合華爲發佈首個全流程國產化多模態大模型 GLM-Image

智譜聯合華爲開源圖像生成模型GLM-Image，這是首個在國產芯片上完成全流程訓練的SOTA多模態模型。其創新採用“自迴歸+擴散解碼器”混合架構，實現了圖像生成與語言模型的深度融合，在知識密集型任務中表現出色，能精準理解全局指令。

通義千問推出 Qwen-Image-Layered 模型，實現圖片 “分層編輯” 突破

通義千問發佈圖像生成模型Qwen-Image-Layered，創新採用“圖層拆解”技術，實現靜態圖片的精準編輯。該模型通過“圖像解耦”思路，將圖片自動分層，有效解決傳統AI編輯中全局修改破壞一致性和局部編輯處理遮擋模糊邊界的兩大痛點，開啓“指哪改哪”的新時代。

谷歌推出全新AI生圖模型Nano Banana 2 Lite： 4 秒出圖，主打高頻批量內容生產