アップルのAI研究チームは最近、表面光場マーカライゼーションを意味する「LiTo」という名前の3D生成大規模モデルをリリースしました。この技術は3D再構築分野における長年の課題を解決し、平面画像1枚で高精細な光と影の効果を持つ完全な3Dオブジェクトを生成することが可能になりました。

image.png

LiToのコアは、潜在空間(Latent Space)を革新的に応用し、独自の統一的な3D潜在表現法を採用しています:

  • 効率的な符号化:複雑な表面光場データをコンパクトなベクトルセットに圧縮し、数学的な記述によって物体の幾何学的形状と光の相互作用の物理的法則を把握します。

  • 双方向メカニズム:エンコーダ-デコーダアーキテクチャを使用します。エンコーダーは幾何構造と外観特徴を抽出し、デコーダーは逆に復元を行い、鏡面反射フィネル反射などの高度な視覚効果を正確に再現できます。

性能の特徴:多視点での光と影の一貫性

LiToのトレーニングには数千個のオブジェクトを含む3Dデータセットが使用されました。実験結果は以下の通りです:

  • 方向偏差の解消:LiToはカメラ座標系を厳密に遵守しており、類似モデルでよく見られるオブジェクトの向きの誤り問題を解決しています。

  • 指標の優位性:多視点での光と影の一貫性において、LiToは現在最高水準のTRELLISモデルと比較して約37%向上しています。

この成果は3Dコンテンツ制作のハードルをさらに下げるものであり、今後は拡張現実(AR)や空間計算デバイス(例えばVision Proなど)に対してより高品質な素材生成のサポートを提供できるようになるでしょう。