






在人工智能技術持續突破的浪潮中,Krea再度以創新之姿引領行業。4月10日,Krea正式發佈全新工具Krea Stage,爲3D場景創作和視頻生成帶來革命性體驗。這一工具以其強大的AI能力,讓用戶能夠從單一圖片生成可編輯的3D場景,並確保跨媒介內容的一致性,爲創作者提供了前所未有的靈活性和效率。以下是AIbase對這一前沿技術的深度解讀。從圖片到3D場景:一鍵構建沉浸式世界Krea Stage的核心亮點在於其從2D到3D的智能轉換能力。用戶只需上傳一張圖片,Krea Stage即可利用AI算法快速生成一個完整的
還在對着二維照片裏的美好場景望眼欲穿?夢想着能身臨其境地漫步在那些迷人畫面之中?現在,這個願望有望成爲現實!來自CVPR2025的重磅研究——MIDI(Multi-Instance Diffusion for Single Image to3D Scene Generation,多實例擴散單圖到3D場景生成)橫空出世,它就像一位技藝高超的魔法師,僅憑一張普通的2D圖片,就能爲你構建出一個栩栩如生的360度3D場景。一圖勝千言?現在還能“變”出整個世界!想象一下,你拍攝了一張陽光灑落的咖啡館一角,照片裏有精緻的桌椅、香氣四溢的咖啡杯,以及窗外婆娑的
2025年2月14日,崑崙萬維集團正式推出Matrix-Zero世界模型,標誌着中國在空間智能領域邁出了重要一步。Matrix-Zero包含兩款子模型:3D場景生成大模型和可交互視頻生成大模型,旨在通過AI技術重塑數字內容創作模式,推動影視製作、遊戲開發、具身智能等行業的創新發展。
長期以來,如何僅憑單張圖像高效生成高質量、廣闊視角的3D場景一直是研究人員面臨的挑戰。傳統方法往往依賴多視角數據,或需要耗時的逐場景優化,並且在背景質量和未見區域的重建上存在不足。現有技術在處理單視圖3D場景生成時,常因信息不足而導致遮擋區域的錯誤或扭曲,背景模糊,以及難以推斷未見區域的幾何結構。而基於迴歸的模型雖然可以前饋方式進行新視角合成,但它們在處理複雜場景時面臨巨大的內存和計算壓力,因此大多侷限於物體級別的生成或窄視角場景。爲了
谷歌 DeepMind 團隊正式推出了 WebLI-100B 數據集,這是一個包含1000億個圖像 - 文本對的龐大數據集,旨在增強人工智能視覺語言模型的文化多樣性和多語言性。通過這一數據集,研究人員希望改善視覺語言模型在不同文化和語言環境下的表現,同時減少各個子組之間的性能差異,從而提升人工智能的包容性。視覺語言模型(VLMs)依賴於大量數據集來學習如何連接圖像與文本,從而執行如圖像字幕生成和視覺問答等任務。過去,這些模型主要依賴於 Conceptual Captions 和 LAION 等大型數據集,雖然這