最近、騰訊の混元チームは中国人民大学の高嶺人工知能学院などの機関と共同で、PlanningBenchを公開し、オープンソース化しました。これは、大規模言語モデルの計画能力を評価および訓練するための拡張可能で検証可能なデータ生成フレームワークです。

image.png

PlanningBenchは実際の計画シナリオに焦点を当て、タスク、制約、難易度などの要素を体系的に抽象化し、30種類以上の計画タスクタイプをカバーするデータ生成・検証システムを構築しています。このフレームワークは、モデルが計画能力を持っているかどうかを評価するだけでなく、モデルの計画能力のトレーニングに安定したかつ移行可能な報酬信号を提供することもできます。

具体的なタスクにおいては、PlanningBenchはスケジュール配置、リソース配分、人件配置、ルートスケジューリング、生産運営、緊急サービスなど、6つの主要なタスクカテゴリをカバーしています。このような広範なタスク設計により、モデルが単一の分野での「問題を解く」現象に陥ることを防ぎ、多様な実際の応用シナリオに適応できるようにしています。

さらに、PlanningBenchの難易度制御システムは、タスク構造や制約階層、リソースの緊迫度などの要因を分解することで、データ生成を現実的な難点を中心に調整します。提示文の長さを単純に延ばすだけではなく、各データインスタンスにはチェックリストが付属しており、モデルの出力が入力条件、リソース制限、および最適性を満たしているかを評価するために使用されます。

注目すべきは、PlanningBenchが局所的な合規性と全体的な成功の両方を評価する方法を重視していることです。これにより、「大部分は正しいが全体として実行不可能」という計画を識別することが可能です。これは、複雑な制約下での大規模言語モデルの実際の計画能力を診断する上で重要な意義を持っています。

PlanningBenchの検証可能なデータを用いてトレーニングすることで、モデルは見たことのない計画ベンチマークや一般的なタスクにおける性能が著しく向上し、その学習信号の汎用性を示しています。全体的に見ると、PlanningBenchは実際のシナリオに基づいた閉ループ型のデータ生成とトレーニング移行システムを形成し、今後の人工知能の計画研究に対して新しいツールと方向性を提供しています。

ポイント:

🌟 PlanningBenchは騰訊と人民大学高嶺との共同開発によるオープンソースフレームワークで、大規模言語モデルの計画能力を評価および訓練することを目的としています。

📅 このフレームワークは、スケジュール配置、リソース配分など、6つの主要な実用的なアプリケーションを含む30以上の計画タスクタイプをカバーしています。

✅ 検証可能なデータを用いたトレーニングにより、モデルはさまざまなタスクにおいて性能が大幅に向上し、その広範な適用性と移行能力を示しています。