NVIDIAの研究チームは、最近新しいオープンソースAIフレームワーク「Polar」をリリースしました。このフレームワークは、Codex、Claude Code、Qwen Codeなどの既存のエージェントフレームワークが「広義相対方略最適化(GRPO)」と呼ばれるトレーニング方法に接続できるようにするためのものです。また、元のツール呼び出し、コンテキストの構成、およびパッチ提出の方法には影響を与えません。このイノベーションにより、コードエージェントのパフォーマンスが大幅に向上します。

image.png

GRPOは、強化学習に特化した最適化技術であり、報酬信号を介してモデルの戦略を調整し、マルチステップの意思決定タスクにおいてより優れた行動を学習させます。この研究では、主にコードエージェントのトレーニングに使用され、モデルが実際のツール呼び出しやパッチ提出プロセスで継続的にパフォーマンスを向上させることが目的です。

研究によると、エージェントの強化学習は単一ステップのタスクから、より複雑な長工程のタスク(例えば、コードリポジトリ、ブラウザ操作、オペレーティングシステムとのインタラクションなど)へと進化しています。このようなタスクは、既存の実行フレームワークに依存しており、複数ラウンドの呼び出し、ツールの使用、およびコンテキスト管理に関与します。したがって、これらのフレームワークを従来の強化学習環境インターフェースに直接書き直すことは非常に困難であり、重要なトレーニング信号の喪失につながる可能性があります。

NVIDIAのPolarフレームワークは、エージェントフレームワークを再構築しようとするのではなく、モデルAPIの境界にエージェントを配置することで、元の動作ロジックを維持します。Polarは、実行フレームワークと推論サーバーの間にモデルエージェントを配置し、さまざまなリクエストスタイルに互換性があり、重要なデータを記録し、トレーニングに使える情報に変換できます。

システムアーキテクチャの観点から見ると、Polarにはタスク送信、セッションスケジューリング、状態の永続化などの機能が含まれており、初期化、実行、後処理のプロセスを最適化することで、トレーニング効率を著しく向上させています。実験結果によると、PolarとGRPOを使用してトレーニングされたエージェントは、SWE-Bench Verifiedテストで性能が大幅に向上し、Codexのpass@1スコアは3.8%から26.4%に増加し、増加率は594.74%に達しました。

さらに、このフレームワークは効率の向上にも優れており、トレーニング時間が約5.39倍短縮され、GPUの平均利用率も顕著に向上し、今後のエージェントトレーニングに対してより強力なサポートを提供します。

ポイントを整理すると:

🛠️ NVIDIAはオープンソースAIフレームワーク「Polar」をリリースし、Codexなどのエージェントフレームワークに新たなトレーニング方法を導入します。

📈 最新のテストでは、Codexのパフォーマンスが大幅に向上し、pass@1スコアは594.74%増加しました。