Magic Insert：一鍵拖放即可讓人物完美融入新背景

在數字創作的神奇世界裏，想象一下，你能夠輕鬆地將一張圖片中的主題拖放到另一張風格迥異的背景圖中，並且讓這個主題完美地融入新環境，既保留了它的個性，又與新背景的風格無縫對接。這聽起來像魔法，但這就是Magic Insert技術的魅力所在。

隨着大型文本到圖像模型的飛速發展，生成高質量圖像已不再是難題。但要讓這些模型真正實用起來，可控性變得至關重要。用戶的需求千差萬別，他們希望根據自己的特定用例與這些模型進行不同的互動。儘管已有研究在這些網絡的可控性上取得了進展，但如何讓這些強大的模型發揮全部潛力，仍是一個挑戰。

Magic Insert技術應運而生，它不僅解決了風格感知的拖放問題，而且與傳統方法（如修復技術）相比，展現出了顯著的優勢。這項技術通過兩個子問題的解決來實現:風格感知的個性化和在風格化圖像中真實插入對象。

QQ截圖20240715145222.jpg

技術亮點:

風格感知個性化:Magic Insert首先使用LoRA和學習到的文本標記對預訓練的文本到圖像擴散模型進行微調，並將其與目標風格的CLIP表示融合。
對象插入:使用Bootstrapped Domain Adaptation技術，將特定領域的照片級真實對象插入模型適應到多樣化的藝術風格領域。
靈活性:該方法允許在風格化程度和原始主題細節的忠實度之間進行選擇，甚至可以在生成中引入更多新穎性。

研究人員展示了Magic Insert在多種不同風格的主題和背景上的實驗結果，證明了其有效性和多樣性。從照片寫實風格到卡通和繪畫，Magic Insert都能成功地將主題從源圖像中提取出來，並融入目標背景，同時適應目標圖像的風格。

QQ截圖20240715145232.jpg

SubjectPlop數據集:

爲了促進風格感知拖放問題的評估和未來進展，研究人員介紹了SubjectPlop數據集，並將其公開提供。這個數據集包含了使用DALL-E3生成的多樣化主題和使用開源SDXL模型生成的背景，涵蓋了從3D、卡通、動漫到現實主義和攝影等多種風格。

通過用戶研究，研究人員發現用戶明顯偏好Magic Insert生成的輸出，與基線方法相比，在主題身份保留、風格忠實度和真實插入方面都有更好的表現。

Magic Insert旨在通過直觀的圖像生成增強創造力和自我表達。然而，它也繼承了類似方法的共同問題，例如改變敏感的個人特徵和再現預訓練模型中的偏見。研究人員強調，隨着更強大的工具的出現，開發保障措施和緩解策略以應對潛在的社會影響至關重要。

Magic Insert技術爲圖像生成領域帶來了新的挑戰，即在保持風格一致性的同時，實現主題到目標圖像的直觀插入。這項工作通過提出風格感知拖放問題、Magic Insert方法和SubjectPlop數據集，爲這一激動人心的圖像生成新領域的發展和探索提供了基礎。

在線試玩：https://magicinsert.github.io/demo.html

項目地址：https://top.aibase.com/tool/magic-insert

論文地址：https://arxiv.org/pdf/2407.02489

AI視頻編輯平臺“Captions”獲 6000 萬美元投資

近期，「Captions」公司籌集了6000萬美元，估值達5億美元，計劃在紐約擴大研究隊伍。成立於2021年，其AI創意工作室在無需專業知識的情況下，讓個體輕鬆生成與編輯高級視頻內容成爲可能。得到Adobe、HubSpot等大投資者，以及好萊塢明星賈瑞德·萊託的支持。「Captions」平臺提供了自動添加字幕、畫面動態調整與眼神修正等功能，幫助用戶創作專業級視頻。近期還新增AI創作者功能，允許創建者製作具有人工智能虛擬角色的視頻。在手機端，該應用已累計1000萬次下載，廣受歡迎，支持跨平臺使用。這一平臺正好滿足了短視頻內容需求的增長，幫助商家快速創作高效互動內容。

無需訓練，即刻克隆！MotionClone，一鍵實現視頻運動的完美複製！

MotionClone技術在數字內容創作領域是一個重大突破，其專長在於能夠從參考視頻中克隆動作，然後根據新的文本描述無縫合成全新的視頻內容。相較於現有的文本到視頻生成模型，在動作合成方面MotionClone展現出的獨特優勢，無需額外訓練或微調，僅通過直接克隆動作即能應對未見過的動作類型。該技術的核心亮點包括：時間注意力機制，精準捕捉參考視頻中的動作；主要時間注意力引導，減少噪聲影響；位置感知的語義引導，增強空間關係和文本對齊，提升動作保真度、時間和文本一致性。MotionClone的問世，不僅提高了視頻內容生成的質量與效率，更展示了未來智能化、個性化的視頻創作能力，有望實現“所想即所得”的創作願景。

3D視覺重建技術DUSt3R:輕鬆基於2D圖片生成3D模型

DUSt3R是一款革命性軟件，致力於在沒有任何相機參數信息的情況下，僅通過圖片生成三維模型。它採用“點圖迴歸”的策略，能有效處理單張及多張圖片的任意數量，用類似拼圖的邏輯，將視覺圖像高效重組爲3D場景。此技術獨特之處在於應用了Transformer網絡，使得圖像處理更爲高效精準。DUSt3R還能提供深度信息，展現物體遠近，同時恢復像素匹配及相機信息，達到前所未有的視覺體驗。在多種視覺任務評估中，DUSt3R均表現出亮眼成績，特別是在對單張圖片深度估計及多張圖片相對位置估計上，均創下了最優異記錄。

OpenDiLoCo：分佈式AI訓練的開源解決方案，低通信成本，全球覆蓋！

LMDs作爲 AI 應用的核心，其高效訓練成爲推動技術發展關鍵。然而，大規模模型訓練需龐大算力，限制了其應用範圍。爲解決計算資源限制問題，OpenDiLoCo作爲全球分佈式訓練創新框架應運而生，基於DiLoCo(分佈式低通信)訓練方法。其採用去中心化結構，優化通信需求，顯著提升訓練效率與全球可擴展性。OpenDiLoCo具有動態資源分配、容錯能力及點對點通信等特性，實現在不犧牲多數計算利用率（90%-95%）的情況下，實現模型高效跨洲、跨國培訓。該框架通過引領者/追隨者架構和容錯培訓方法，增強分佈式訓練魯棒性，同時在十億參數模型中證明了其算法優勢和高效計算策略。通過消融實驗，Prime Intellect 證明了 DiLoCo 在降低通信需求至初始的500倍下仍能保持基線性能。同時，成功在C4數據集和包含1B參數模型部署中展示了其方法的全球訓練能力，其結果超過了原先DeepMind研究針對最多4億參數模型規模的實驗規模上限到1億參數級。將實驗拓展到北美、歐洲的多國家進行測試，證明了OpenDiLoCo開放源碼庫的潛在巨大影響力。Prime Intellect對於OpenDiLoCo框架的應用，是AI分佈式與去中心化訓練領域的一次領先嚐試，未來將探索更大規模模型與更高效率優化。

Magic Insert：一鍵拖放即可讓人物完美融入新背景

相關推薦

AI視頻編輯平臺“Captions”獲 6000 萬美元投資

無需訓練，即刻克隆！MotionClone，一鍵實現視頻運動的完美複製！

3D視覺重建技術DUSt3R:輕鬆基於2D圖片生成3D模型

谷歌母公司Alphabet或將230億美元收購雲安全公司Wiz

OpenDiLoCo：分佈式AI訓練的開源解決方案，低通信成本，全球覆蓋！

Magic Insert：一鍵拖放即可讓人物完美融入新背景

相關推薦

​AI視頻編輯平臺“Captions”獲 6000 萬美元投資

無需訓練，即刻克隆！MotionClone，一鍵實現視頻運動的完美複製！

3D視覺重建技術DUSt3R:輕鬆基於2D圖片生成3D模型

谷歌母公司Alphabet或將230億美元收購雲安全公司Wiz

OpenDiLoCo：分佈式AI訓練的開源解決方案，低通信成本，全球覆蓋！

AI視頻編輯平臺“Captions”獲 6000 萬美元投資