最近、マサチューセッツ工科大学(MIT)のコンピュータサイエンスと人工知能ラボ(CSAIL)とトヨタリサーチインスティテュートは、「操作可能なシーン生成(steerable scene generation)」という生成AIツールを共同で公開しました。このツールはロボットの学習能力を向上させることが目的です。この新しいツールは、キッチン、リビングルーム、レストランなどの仮想訓練環境を作成し、エンジニアがロボットが現実世界のタスクをどのように処理するかをテストできるようにします。

図の出典:画像はAIによって生成されています。画像のライセンス提供元はMidjourneyです。
このプラットフォームは4,400万以上の3D部屋データで訓練されており、「操作可能」という特徴を持っています。これは「モンテカルロ木探索(Monte Carlo tree search、MCTS)」という戦略を用いています。MCTSはAIモデルがシーン生成のオプションを識別して選択し、特定の目標に達成するのに役立ちます。例えば、シーンをできるだけ現実的にする、またはシーンに多くの物を追加するなどです。この戦略により、システムはトレーニング中に継続的に学習し、次第に複雑なシーンを作成できるようになります。
MITの博士課程学生であり、CSAILの研究員であるニコラス・パフ(Nicholas Pfaff)氏は、このプロジェクトは初めてMCTSをシーン生成に適用したものであり、シーン生成タスクを「シーケンシャルデシジョンプロセス(連続的な決定プロセス)」として扱ったと語っています。「私たちは部分的なシーンを構築し続け、時間が経つにつれてより良いまたは理想的なシーンを生成しています。したがって、MCTSで生成されたシーンは、拡散モデルで訓練されたシーンよりも複雑です。」
業界の専門家は、この作業がロボット学習における主要な欠点の一つである高品質なトレーニングデータの不足が技術の発展を制限してきたことを補うものであると指摘しています。アマゾンのロボティクス応用科学者であるジェレミー・ビナギア(Jeremy Binagia)氏は、「操作可能なシーン生成はより良い方法を提供します。物理的妥当性を保証し、より興味深いシーンの生成が可能になります。」と述べました。
研究チームは、彼らのプロジェクトの利点はエンジニアにとって多様で使いやすいシーンを構築できることにあると述べています。パフ氏は追加で、「私たちのガイドラインを使うことで、多様で現実的でタスクに合致したシーンを生成できます。これによりロボットのトレーニングに使用することができます。」と語りました。
このシステムはまだ概念実証段階ですが、チームは将来的にはもっと多くのオブジェクトや環境を拡張し、生成型AIを使って既存のデータベースに頼らずに新たな資産を作り出すことを目指しています。仮想トレーニング場の多様性と現実感を広げるため、チームはユーザーコミュニティを構築し、大量のデータを生成し、ロボットが幅広いスキルを学ぶ基盤となることを望んでいます。
ポイント:
🌐 MIT とトヨタリサーチインスティテュートが新AIツールをリリースし、ロボットの仮想トレーニング能力を強化しています。
🤖 新ツールはモンテカルロ木探索技術を使用し、複雑なシーンを生成し、ロボットの学習を促進しています。
📈 将来的には、より多くのオブジェクトや環境を拡張し、ユーザーコミュニティを通じてロボットスキルトレーニングを支援することを目指しています。
