3月31日、アリババ・リンボットテクノロジーは大規模なRGB-D深度データセット「LingBot-Depth-Dataset」を正式にオープンソース化しました。このデータセットには300万枚の高品質なサンプルが含まれており、そのうち200万枚は現実的なシーンから収集され、100万枚はレンダリングによって生成されています。全体のサイズは2.71TBに達し、6種類の主流な深度カメラをカバーしており、現在のオープンソースコミュニティにおいて最大規模の現実的なRGB-Dデータセットです。今回のオープンソース化により、身体知能、空間認識および3次元ビジョンなどの分野に、より豊富で実際の応用に近いデータのサポートが提供されます。

(図説:LingBot-Depth-Datasetのデータサンプル。上から順にRGB画像、センサの原始的な深度画像、真値の深度画像です。このデータセットは、原始的な深度情報と真値の深度情報を同時に提供しており、関連モデルが現実的なシーンでの訓練と評価に役立てるために強力なサポートを提供します。)
長期間にわたり、公開された深度データセットには規模が限られ、現実的なシーンのカバーが不十分であり、ハードウェアデバイスが単一であるなどの問題がありました。多くのデータは合成に基づいており、現実的なセンサと比較してノイズ、空洞、素材表現に大きな違いがあり、関連モデルの現実的な環境での応用を大きく制限していました。
LingBot-Depth-Datasetは、空間認識分野におけるデータの空白を効果的に埋めています。特に、大規模な現実的なシーンからのデータを提供しています。このデータセットの各サンプルにはRGB画像、センサの原始的な深度画像、そして真値の深度画像が含まれており、直接的に深度推定と深度補完タスクの訓練と評価に使用できます。このデータセットは、Orbbec335、335L、Intel RealSense D405、D415、D435、D455の計6種類の主流な深度カメラをカバーしており、モデルが異なるデバイスやシナリオでのトレーニング、適合性および評価を向上させるのに役立ちます。
紹介によると、アリババ・リンボットが以前にオープンソースした高精度な空間認識モデル「LingBot-Depth」は、このデータセットを主なトレーニングデータとして使用しています。業界の主流な方法であるPromptDAやPriorDAと比較して、LingBot-Depthは室内シナリオにおける深度予測誤差を70%以上低下させ、スパース深度補完などのタスクでは約47%の誤差低下を実現しています。市販の深度カメラにこのモデルを搭載すると、ハードウェアのアップグレードなしでも、透明なガラス、反射面、逆光など複雑なシナリオでより完全で滑らかな、エッジが明確な深度画像を出力でき、一部のシナリオでは業界の最高水準の産業用深度カメラよりも優れた性能を発揮します。
