テンセントと人民大学高嶺が共同でオープンソース計画評価フレームワークのPlanningBenchを発表

最近、騰訊の混元チームは中国人民大学の高嶺人工知能学院などの機関と共同で、PlanningBenchを公開し、オープンソース化しました。これは、大規模言語モデルの計画能力を評価および訓練するための拡張可能で検証可能なデータ生成フレームワークです。

PlanningBenchは実際の計画シナリオに焦点を当て、タスク、制約、難易度などの要素を体系的に抽象化し、30種類以上の計画タスクタイプをカバーするデータ生成・検証システムを構築しています。このフレームワークは、モデルが計画能力を持っているかどうかを評価するだけでなく、モデルの計画能力のトレーニングに安定したかつ移行可能な報酬信号を提供することもできます。

具体的なタスクにおいては、PlanningBenchはスケジュール配置、リソース配分、人件配置、ルートスケジューリング、生産運営、緊急サービスなど、6つの主要なタスクカテゴリをカバーしています。このような広範なタスク設計により、モデルが単一の分野での「問題を解く」現象に陥ることを防ぎ、多様な実際の応用シナリオに適応できるようにしています。

さらに、PlanningBenchの難易度制御システムは、タスク構造や制約階層、リソースの緊迫度などの要因を分解することで、データ生成を現実的な難点を中心に調整します。提示文の長さを単純に延ばすだけではなく、各データインスタンスにはチェックリストが付属しており、モデルの出力が入力条件、リソース制限、および最適性を満たしているかを評価するために使用されます。

注目すべきは、PlanningBenchが局所的な合規性と全体的な成功の両方を評価する方法を重視していることです。これにより、「大部分は正しいが全体として実行不可能」という計画を識別することが可能です。これは、複雑な制約下での大規模言語モデルの実際の計画能力を診断する上で重要な意義を持っています。

PlanningBenchの検証可能なデータを用いてトレーニングすることで、モデルは見たことのない計画ベンチマークや一般的なタスクにおける性能が著しく向上し、その学習信号の汎用性を示しています。全体的に見ると、PlanningBenchは実際のシナリオに基づいた閉ループ型のデータ生成とトレーニング移行システムを形成し、今後の人工知能の計画研究に対して新しいツールと方向性を提供しています。

ポイント：
🌟 PlanningBenchは騰訊と人民大学高嶺との共同開発によるオープンソースフレームワークで、大規模言語モデルの計画能力を評価および訓練することを目的としています。
📅 このフレームワークは、スケジュール配置、リソース配分など、6つの主要な実用的なアプリケーションを含む30以上の計画タスクタイプをカバーしています。
✅ 検証可能なデータを用いたトレーニングにより、モデルはさまざまなタスクにおいて性能が大幅に向上し、その広範な適用性と移行能力を示しています。

テンセント・フェンユアンの統合：マルチモーダルと大規模言語モデル部門の統合姚順雨が全モーダルの限界に挑む

7月24日付の報道によると、テンセントは7月23日にフェンユアンマルチモーダルモデル部門と大規模言語モデル部門を統合し、基礎モデル部を設立した。この新部署は同社の最高AI科学研究者である姚順雨によって統率される。この取り組みは、研究開発と協働効率を向上させ、全モーダルモデルの知能の限界に向けた全力での挑戦を目指している。統合の動きは以前から予告されており、昨年12月には姚順雨が大規模言語モデルチームを引き受けた。現在の統合により、テンセントは多モーダルと言語の深い統合を推進するためのリソースを集中させ、次世代の統一された基礎モデルの構築を加速し、全モーダルの知能の新しい高みに挑むことになる。

Epoch AIが3つのAIテキスト検出エンジンをテスト：人間の文風を模倣した場合、最高で30％近くのコンテンツが見逃される

Epoch AIの研究によると、主流のAIテキスト検出エンジンは通常のAI生成テキストをほぼ完璧に識別できるが、大規模な言語モデルが特定の著者の執筆スタイルを意図的に模倣すると、正確率が明確に低下し、科学的執筆は最も判断が難しい。この実験では、Pangram、GPTZero、Originality.aiの3つのツールをテストした。495編のブログ、小説、科学に関する人間のオリジナルテキスト（すべてChatGPTが登場する前に関作成されたもの）を使用し、スタイルの模倣が検出を効果的に回避できることを発見した。

OpenAIの人員変動：元研究者である田永龍が騰訊に就職し、視覚言語モデルの開発に専念

OpenAIの元研究者である田永龍が騰訊の大規模言語モデル部に加わり、視覚言語モデルの開発に注力している。この動きは、騰訊がマルチモーダルな大規模言語モデル戦略を強化するための重要な採用と見られ、先端人材の争奪戦が激しくなっていることを示している。

AIでAIを管理：Redditが自動化システムをアップグレードし、1日2300万件のスパム情報をブロック

Redditはアップグレードされた大規模言語モデルと自動化ツールを組み合わせ、高精度で隠蔽されているAI生成スパムコンテンツ、偽の行動や人為的な宣伝を監視・撲滅し、コミュニティのコンテンツの真実性を守っています。

テンセントと人民大学高嶺が共同でオープンソース計画評価フレームワークのPlanningBenchを発表

関連推奨

テンセント・フェンユアンの統合：マルチモーダルと大規模言語モデル部門の統合姚順雨が全モーダルの限界に挑む

Epoch AIが3つのAIテキスト検出エンジンをテスト：人間の文風を模倣した場合、最高で30％近くのコンテンツが見逃される

MiniMaxが新世代の大規模モデルを発売予定　パラメータ数は2.7兆

OpenAIの人員変動：元研究者である田永龍が騰訊に就職し、視覚言語モデルの開発に専念

AIでAIを管理：Redditが自動化システムをアップグレードし、1日2300万件のスパム情報をブロック

テンセントと人民大学高嶺が共同でオープンソース計画評価フレームワークのPlanningBenchを発表

関連推奨

テンセント・フェンユアンの統合：マルチモーダルと大規模言語モデル部門の統合 姚順雨が全モーダルの限界に挑む

Epoch AIが3つのAIテキスト検出エンジンをテスト：人間の文風を模倣した場合、最高で30％近くのコンテンツが見逃される

MiniMaxが新世代の大規模モデルを発売予定 パラメータ数は2.7兆

OpenAIの人員変動：元研究者である田永龍が騰訊に就職し、視覚言語モデルの開発に専念

AIでAIを管理：Redditが自動化システムをアップグレードし、1日2300万件のスパム情報をブロック

テンセント・フェンユアンの統合：マルチモーダルと大規模言語モデル部門の統合姚順雨が全モーダルの限界に挑む

MiniMaxが新世代の大規模モデルを発売予定　パラメータ数は2.7兆