エージェントをどんどん強化できる：AReaL2.0がオープンソースに。自己進化型知能エージェント向けのRLインフラストラクチャを構築

7月2日、オープンソースの強化学習インフラプロジェクト AReaL は正式にバージョン2.0をリリースしました。AReaLは、基礎モデルのトレーニングと現代的なエージェントアプリケーションの間の連携を実現し、エージェントの応用シーンにおいて効率的な強化学習のトレーニングサポートを提供することを目的としています。

今回のリリースされた AReaL 2.0 は、すでに本格的な業務シナリオに導入されているエージェントを対象に、エージェントが使用中に継続的に学習できるシステムインフラストラクチャを提供します。AReaL 2.0を通じて、エージェントが本番タスクを実行する際のインタラクションプロセスが記録・整理され、後続のトレーニングプロセスに接続され、これにより下位モデルの継続的な最適化が可能になります。その結果、エージェントは安全で制御可能な前提の下で使い続けるほど強くなっていきます。

現在、エージェントは本格的な生産環境へと進出しています。コードの作成や資料の検索、ツールの呼び出しなど、企業システム内でどんどん複雑なタスクをこなしています。しかし、問題も同時に発生しています：エージェントは毎日仕事をしているにもかかわらず、実際の仕事から成長することが難しくなっています。

本番業務では、エージェントによって大量の価値ある経験が生成されます。例えば、どのタスクがうまくできたのか、どのツールの呼び出しが失敗したのか、ユーザーがなぜ満足していないのか、またはどのステップの意思決定が誤っていたのかなどが含まれます。しかし、これらの情報は多くの場合、ログ形式で保存されるだけで、安定的かつ安全に次の能力向上に転換することはできません。

AReaL 2.0が解決しようとしているのは、エージェントが本番に導入された後にどのようにしてさらに成長するかという点です。開発者はエージェントを再構築する必要はありません。エージェントが元々大規模モデルに送っていた要求を、AReaL 2.0の統一された推論エントリーポイントを通すだけであれば、オンライン強化学習のプロセスに接続できます。

図説:AReaL2.0オンライン強化学習（Online RL）アーキテクチャの概要

Hermes Agentを例にすると、Hermesは依然としてタスクを受け取り、ステップを計画し、モデルを呼び出すことができます。一方、AReaL 2.0はバックグラウンドで、Hermesがタスクを完了する際の重要なインタラクションプロセスを記録し、タスク終了後のフィードバックや報酬信号を組み合わせ、これらのリアルな軌跡を後続のトレーニングに利用します。開発者はHermesを自前のエージェントやタスク環境に置き換えることで、同じ方法でエージェントのオンライン強化学習プロセスを構築できます。

これは、エージェントの能力向上が人間が構築したデータやオフライントレーニング、再配置に依存するだけでなく、リアルなタスクにおける複数回の会話、ツールの呼び出し、実行結果、フィードバック信号などのすべてがモデルが引き続き学ぶための材料になることを意味しています。

この点は特に企業のシナリオにおいて重要です。企業ワークフロー中のエージェントは、現実的で複雑で常に変化するタスクに直面します。コードベースが更新され、業務プロセスが調整され、ユーザーのニーズが変化し、ツールやシステムも変更される可能性があります。もしエージェントの能力が一度導入されるとほぼ固定されてしまうと、長期的に現実的な環境に適応することが難しくなります。AReaL 2.0が補うべきは、『ツールを使える』ことから『使った経験から学べる』ことへの間に存在する欠けた部分です。

一方で、現実的な業務での継続的な学習は単純に「データを収集して再トレーニング」するものではありません。エージェントはコード、顧客情報、企業知識ベース、内部システムにアクセスする可能性があるため、トレーニングの流れには権限制御、データの脱マスク、隔離、監査などの要件を考慮する必要があります。AReaL 2.0は、エージェントの軌跡に基づくデータ代理メカニズムをシステム設計に導入しており、リアルなタスクデータがトレーニングプロセスに進入する際、より安全で制御可能な前提で管理・利用が可能です。

AReaLチームは技術報告書で、自己進化型エージェントの主要な課題はモデルの強さや強化学習アルゴリズムの先進性ではなく、本物のエージェントを支援するオンライン強化学習インフラストラクチャの欠如であると指摘しています。AReaL 2.0は、次世代のエージェントアプリケーションを向けて行われたアーキテクチャのアップグレードです。エージェントサービス、リアルなタスクの軌跡、データガバナンス、オンライン強化学習トレーニングをつなぎあわせ、エージェントが展開された後に継続的に学習することを現実的なエンジニアリングの基盤にします。

さらに長い視点から見れば、AReaL 2.0は次世代のエージェントアプリケーションの進化パターンを指し示しています。エージェントはもはや一回限りのトレーニングとデプロイメントのツールではなく、リアルな環境でフィードバックを得ながら、成功や失敗を経験として変換し、安全な境界内での能力の継続的な向上を可能にする存在となります。

AReaLプロジェクトは、アリババグループ、清华大学、香港科技大学などのチームによって2024年に開始されました。2026年5月、AReaLはアリババ InclusionAIから孵化して独立したオープンソースコミュニティとなり、PyTorch Foundation Ecosystemプロジェクトに参加し、主流の強化学習インフラストラクチャ生態系にさらに深く溶け込みました。

コミュニティが独立して発展する中、AReaLは産業界やオープンソースエコシステムのパートナーからの継続的な参加と支援を受け続けています。その例には、Huawei CloudチームやMindLabなどが含まれます。今後、AReaLはオンライン強化学習、自動評価、マルチモーダルエージェントトレーニングなどの方向性を中心に繰り返し改善し、コミュニティとともに自己進化型エージェントエコシステムの発展を推進していきます。

現在、AReaL 2.0の技術報告書とコードはオープンソースされています。

・GitHub リポジトリ:https://github.com/areal-project/AReaL

・技術報告:https://arxiv.org/abs/2607.01120

エージェントをどんどん強化できる：AReaL2.0がオープンソースに。自己進化型知能エージェント向けのRLインフラストラクチャを構築

関連推奨

前ディープマインドチームの量子AI企業EquiLibre、Aラウンド資金調達を完了し、評価額は5億ドルに達する

国境とデジタル格差を越えて：アリババグループがAMPプロトコルを発表し、グローバルなエージェントの支払い新たな連携を開拓

能力とセキュリティのジレンマ！OpenAIがChatGPTのブロックモードを提供。データ漏洩を防ぐためネットワーク切断を選択

テンセントミーティングのAI機能がアップグレード、元宝メモの月間使用時間が約5倍に増加

ボタン 3.0 が正式リリース。複数のエージェントによる共同作業をサポート