在這個AI技術飛速發展的時代,我們見證了許多神奇的創新,比如最近火遍朋友圈的“Diffree”。這可不是一款新推出的手機遊戲,而是一項能讓設計師和攝影師們歡呼雀躍的AI圖像處理技術。

它能夠根據你的文字描述,在圖片中“無痕跡”地添加新物體,就像擁有了一件“隱身斗篷”。你不需要手動添加遮罩或模板,模型就能自動預測對象的位置和形狀,實現無縫融合添加新對象。

想象一下,你是一位室內設計師,需要向客戶展示不同裝飾品的效果。以前,你可能需要手動P圖或者重新拍攝,但現在,你只需要告訴Diffree你的需求,它就能在照片中“神不知鬼不覺”地添加上新的裝飾品,而且看起來毫無違和感。

image.png

這項技術的核心在於它的“文本引導”功能。你只需要輸入一些簡單的文字描述,比如“在沙發上放一個抱枕”,Diffree就能理解你的需求,並在沙發上“變”出一個抱枕來。而且光線、色調、顏色等可以與原始圖像保持一致。

那麼,Diffree是如何做到的呢?這得歸功於它背後的“文本到圖像”(T2I)模型。這個模型通過訓練,學會了如何根據文本描述生成圖像內容。Diffree利用了一個名爲“Stable Diffusion”的擴散模型,並通過一個額外的遮罩預測模塊來預測新物體的理想位置。

爲了讓Diffree能夠更好地理解現實世界,研究者們創建了一個名爲“OABench”的合成數據集。這個數據集包含了74K個真實世界的圖像和文本對,它們被用來訓練Diffree,使其能夠準確地在圖像中添加物體,同時保持背景的一致性。

Diffree的超能力可不止於此。它不僅能在圖像中添加單個物體,還能在同一個圖像中多次添加不同的物體,而且每次添加都能保持背景的一致性。這就像是在玩一個高級版的“大家來找茬”遊戲,但這次,AI能在不改變背景的情況下,巧妙地加入新的元素。

研究人員們通過一系列實驗證明了Diffree的優越性。無論是在成功率、物體的合理性、質量、多樣性還是相關性方面,Diffree都表現出色,遠超其他基於文本引導和遮罩引導的技術。

Diffree的問世,不僅僅是技術上的一次飛躍,更是對設計師、攝影師甚至普通用戶的一大福音。它降低了圖像編輯的門檻,讓每個人都能成爲創造者。未來的Diffree,或許還能與其他AI技術結合,開拓出更多令人驚歎的應用場景。

項目地址:https://top.aibase.com/tool/diffree