崑崙萬維發佈Matrix-Zero世界模型：國內首創3D場景與可交互視頻生成

崑崙萬維今日宣佈正式推出其Matrix-Zero世界模型，成爲國內首家同時具備3D場景生成和可交互視頻生成能力的人工智能企業，標誌着其在空間智能領域邁出了重要一步。

Matrix-Zero的核心亮點在於其強大的3D場景生成功能。該功能可以將用戶輸入的圖片轉化爲具有全局一致性、可自由探索的真實3D場景。這一突破性技術具備以下幾個關鍵特性:

全局一致性: Matrix-Zero生成的3D場景具有高度的全局一致性。例如，輸入一張“城堡花園一角”的圖片，模型可以生成一個360度環視後場景保持不變的3D環境，最後一幀能夠平滑地回到起始幀，避免了傳統方法中常見的生成結果前後不一致的問題。

自由探索: 用戶可以在生成的3D場景中自由移動和探索，獲得沉浸式的體驗。

多風格支持: Matrix-Zero支持不同風格的圖片輸入，並具備風格遷移能力，可以生成具有不同藝術風格的3D場景。

動態場景生成: 該模型還支持動態場景的生成，爲未來的應用拓展了更多可能性。

Matrix-Zero的3D場景生成技術在多個領域具有廣闊的應用前景，包括:

3D遊戲場景建模: 可以實現3D遊戲場景的可控、快速建模，大幅提高遊戲開發效率。

具身智能模擬: 能夠快速搭建具身智能所需的模擬場景，加速相關領域的研究和開發。

崑崙萬維Matrix-Zero的發佈，不僅展示了其在人工智能領域的技術實力，也爲3D內容創作和空間智能應用帶來了新的可能性。該模型的推出有望推動相關產業的創新和發展。

Krea發佈全新工具Krea Stage：從圖片到3D場景：一鍵構建沉浸式世界

在人工智能技術持續突破的浪潮中，Krea再度以創新之姿引領行業。4月10日，Krea正式發佈全新工具Krea Stage，爲3D場景創作和視頻生成帶來革命性體驗。這一工具以其強大的AI能力，讓用戶能夠從單一圖片生成可編輯的3D場景，並確保跨媒介內容的一致性，爲創作者提供了前所未有的靈活性和效率。以下是AIbase對這一前沿技術的深度解讀。從圖片到3D場景：一鍵構建沉浸式世界Krea Stage的核心亮點在於其從2D到3D的智能轉換能力。用戶只需上傳一張圖片，Krea Stage即可利用AI算法快速生成一個完整的

告別平面！MIDI：可提取圖片元素生成360度3D場景

還在對着二維照片裏的美好場景望眼欲穿?夢想着能身臨其境地漫步在那些迷人畫面之中?現在，這個願望有望成爲現實!來自CVPR2025的重磅研究——MIDI（Multi-Instance Diffusion for Single Image to3D Scene Generation，多實例擴散單圖到3D場景生成）橫空出世，它就像一位技藝高超的魔法師，僅憑一張普通的2D圖片，就能爲你構建出一個栩栩如生的360度3D場景。一圖勝千言?現在還能“變”出整個世界!想象一下，你拍攝了一張陽光灑落的咖啡館一角，照片裏有精緻的桌椅、香氣四溢的咖啡杯，以及窗外婆娑的

崑崙萬維發佈Matrix-Zero世界模型支持3D場景、可交互視頻生成

2025年2月14日，崑崙萬維集團正式推出Matrix-Zero世界模型，標誌着中國在空間智能領域邁出了重要一步。Matrix-Zero包含兩款子模型:3D場景生成大模型和可交互視頻生成大模型，旨在通過AI技術重塑數字內容創作模式，推動影視製作、遊戲開發、具身智能等行業的創新發展。

單圖秒變3D奇境：Wonderland可高效構建高質量3D場景

長期以來，如何僅憑單張圖像高效生成高質量、廣闊視角的3D場景一直是研究人員面臨的挑戰。傳統方法往往依賴多視角數據，或需要耗時的逐場景優化，並且在背景質量和未見區域的重建上存在不足。現有技術在處理單視圖3D場景生成時，常因信息不足而導致遮擋區域的錯誤或扭曲，背景模糊，以及難以推斷未見區域的幾何結構。而基於迴歸的模型雖然可以前饋方式進行新視角合成，但它們在處理複雜場景時面臨巨大的內存和計算壓力，因此大多侷限於物體級別的生成或窄視角場景。爲了

谷歌 DeepMind 推出千億級視覺語言數據集 WebLI-100B

谷歌 DeepMind 團隊正式推出了 WebLI-100B 數據集，這是一個包含1000億個圖像 - 文本對的龐大數據集，旨在增強人工智能視覺語言模型的文化多樣性和多語言性。通過這一數據集，研究人員希望改善視覺語言模型在不同文化和語言環境下的表現，同時減少各個子組之間的性能差異，從而提升人工智能的包容性。視覺語言模型（VLMs）依賴於大量數據集來學習如何連接圖像與文本，從而執行如圖像字幕生成和視覺問答等任務。過去，這些模型主要依賴於 Conceptual Captions 和 LAION 等大型數據集，雖然這