NVIDIAは、最近、汎用人工知能(AGI)分野における最新の突破を紹介し、NitroGenというゲームAIエージェントのベースモデルを発表しました。従来の単一用途のAIとは異なり、NitroGenはOpenVisionに基づくアクションモデルであり、さまざまな仮想世界を移動できる「汎用エージェント」として設計されています。

image.png

NitroGenが複雑な操作ロジックを習得するため、研究チームは以前学術界が見過ごしていた「宝庫」に注目しました。それは、コントローラーのオーバーレイを持つYouTubeやTwitch上のゲームビデオです。1,000以上のゲームと合計4万時間を超えるプレイヤーの録画を分析することで、NitroGenは視覚フィードバックに応じて直接操作命令を生成する方法を学びました。AIbaseによると、研究者たちはテンプレートマッチングと微調整されたSegFormerモデルを活用し、膨大なビデオからプレイヤーのリアルタイムのキー入力データを正確に抽出しました。

技術構造において、NitroGenはNVIDIAが以前に公開したGR00TN1.5ロボットモデルを深く統合しており、これにより多プラットフォームへの適応能力を備えています。テスト結果によると、NitroGenはアクションRPG、パッケージジャンプ、Roguelikeなど、異なるスタイルのゲームで対応可能です。完全に陌生で見たことのないゲーム環境に置かれた場合でも、その性能は頭から訓練されたモデルよりも成功確率が52%高いことが示され、ロボットベースモデルが仮想環境で汎用性があることを十分に証明しています。

現在、NVIDIA、スタンフォード大学、カリフォルニア工科大学などのトップレベルの学術機関によって構成される共同研究チームは、このプロジェクトの論文コードおよび関連するデータセットをオープンソース化し、グローバルなAIコミュニティが身体知能や汎用エージェントの分野でさらに探求することを目的としています。

ポイント:

  • 🎮 大量データ駆動:モデルはYouTubeやTwitch上の4万時間以上のゲームビデオを基に学習し、画面内の仮想コントローラーのボタンを認識することで、人間のプレイヤーの操作ロジックを学びます。

  • 🚀 優れた汎用性:NitroGenはロボットベースモデルが汎用的なスマートエージェントとして動作できることを実証しており、まったく新しいゲームタスクに直面しても、従来モデルより成功率が52%向上しています。

  • 🔓 全面的なオープンソース共有:NVIDIAは複数の有名大学と協力し、NitroGenのモデル重み、コード、データセットを公開し、汎用AIスマートエージェントの発展に重要な基盤を提供しています。

NitroGenの技術的詳細に興味がある場合は、ビデオから操作ロジックをどのように抽出するのかをご説明しますか?