蘋果 AI 研究團隊近日推出了名爲 LiTo(表面光場標記化)的3D 生成大模型。該技術攻克了3D 重建領域的長期難題,實現了僅憑一張平面圖像即可生成具有高保真光影效果的完整3D 對象。

image.png

LiTo 的核心在於創新性地應用了潛在空間(Latent Space)及首創的統一3D 潛在表示法:

  • 高效編碼:將複雜的表面光場數據壓縮爲緊湊的向量集,通過數學描述掌握物體幾何形狀與光線交互的物理規律。

  • 雙向機制:採用編碼器-解碼器架構。編碼器負責提取幾何結構與外觀特徵;解碼器則負責逆向還原,能夠精準復現鏡面高光菲涅爾反射高級視覺效果。

性能表現:多視角光影的一致性

爲了訓練 LiTo,研究團隊使用了包含數千個對象的3D 數據集。實驗結果顯示:

  • 解決方向偏差:LiTo 嚴格遵循攝像機座標系,解決了同類模型常見的物體朝向錯誤問題。

  • 指標領先:在多視角光影一致性指標上,LiTo 較目前頂尖的 TRELLIS 模型提升了約 37%

這一成果標誌着3D 內容創作門檻的進一步降低,未來有望爲增強現實(AR)以及空間計算設備(如 Vision Pro)提供更高質量的素材生成支持。