相關推薦
Nano Banana 2橫空出世!精準渲染“11:15的滿杯紅酒”,AI圖像生成邁入設計師級時代
Nano Banana2 AI圖像模型實現重大突破,攻克複雜細節還原難題,通過模擬人類多階段創作流程,使圖像生成從隨機出圖邁向可控精修,徹底解決文字、時間、光影等細節易出錯的問題,引領行業進入精準生成新階段。
NotebookLM集成Nano Banana,可用於視頻生成配圖
谷歌NotebookLM集成Nano Banana圖像生成模型,實現從文本處理到多模態創作的升級,用戶可將筆記轉化爲視頻,提升學習與創作效率。本週起向Pro用戶逐步推送,預計數週內全面覆蓋。
阿里通義千問開源全新文生圖模型Qwen-Image
通義千問系列首次開源了一款名爲Qwen-Image的20億參數多模態擴散變換器(MMDiT)圖像生成基礎模型。這一創新成果不僅在複雜文本渲染和精確圖像編輯方面取得了突破性進展,更是在多個公開基準測試中展現了卓越性能,成爲圖像生成與編輯領域的新星。 Qwen-Image以其強大的文本渲染能力脫穎而出,支持多行佈局、段落級文本生成及細粒度細節呈現,無論是英語還是中文,均能實現高保真輸出。例如,在渲染宮崎駿風格的動漫場景時,模型能夠精準呈現店鋪牌匾、人物姿勢及神態,甚至酒缸上的細小文字也清晰可見。同樣,在中文對聯的渲染中,Qwen-Image不僅準確繪
混元開源新方案 MixGRPO:訓練效率大幅提升,性能反而更強
騰訊混元團隊推出圖像生成新框架MixGRPO,通過結合SDE和ODE創新採樣策略,將訓練時間縮短50%,其變體MixGRPO-Flash更降低71%。該框架優化MDP過程,限制智能體探索範圍,在保持性能的同時顯著提升效率。研究採用滑動窗口策略聚焦關鍵去噪步驟,並引入高階求解器加速採樣,使圖像生成質量和多樣性均有提升。相關代碼已開源。
通義千問發佈多模態統一理解與生成模型Qwen VLo
近日,Qwen VLo多模態大模型正式發佈,該模型在圖像內容理解與生成方面取得了顯著進展,爲用戶帶來了全新的視覺創作體驗。 據介紹,Qwen VLo在繼承原有Qwen-VL系列模型優勢的基礎上,進行了全面升級。該模型不僅能夠精準“看懂”世界,更能基於理解進行高質量的再創造,真正實現了從感知到生成的跨越。用戶現在可以在Qwen Chat(chat.qwen.ai)平臺上直接體驗這一新模型。
