5月28日,英偉達(NVIDIA)研究團隊正式開源了名爲 Polar 的強化學習訓練框架。該框架的核心創新在於,它能夠讓 Codex、Claude Code、Qwen Code 等現有主流代碼智能體(Agent)在不修改任何原生代碼的情況下,無縫接入 GRPO(廣義相對策略優化)強化學習訓練。

一、行業痛點:智能體強化學習的“圍牆”
隨着代碼智能體從簡單的單步任務邁向複雜長流程任務(如倉庫級修改、OS 交互),開發者愈發依賴成熟的執行框架(Harness)。然而,將這些複雜的框架接入傳統的強化學習基礎設施面臨巨大的壁壘:
接入成本高: 傳統方法要求將代碼邏輯強行重寫爲 env.init()、env.step() 等標準環境接口,極其繁瑣。
信息丟失: 在重構過程中,往往會丟失關鍵的工具調用細節、多輪對話上下文或子智能體協作邏輯,導致模型無法獲取高質量的訓練信號。

二、核心解法:將“邊界”作爲訓練入口
Polar 不要求重寫執行框架,而是將“模型 API 邊界”作爲訓練的切入點。
黑盒化處理: Polar 在代碼執行框架與模型推理服務器之間設置了一個透明代理(Gateway)。無論智能體使用的是 Anthropic、OpenAI 還是 Google 的 API 接口,Polar 都能無縫攔截、轉發請求。
軌跡重構: 在轉發過程中,Polar 實時記錄提示詞、採樣 Token、對數概率等關鍵信息,並將其重建成強化學習訓練器所需的“軌跡”數據。
高效異步架構: 系統通過 Rollout Server 負責調度與持久化,Gateway Node 處理生命週期與資源回收。通過預熱緩衝池(READY buffer)與並行任務處理,有效消除了長尾任務對 GPU 的訓練阻塞。
三、性能飛躍:讓編碼智能體脫胎換骨
實驗數據顯示,Polar 配合 GRPO 訓練帶來了顯著的性能增益:
SWE-Bench Verified 基準測試: 基於同一個 Qwen3.5-4B 底座模型,在不同代碼框架下表現驚人:
Codex 框架: pass@1分數從3.8% 飆升至26.4%(漲幅高達 594.74%)。
Claude Code 框架: 從29.8% 提升至34.6%。
Pi 框架: 從34.2% 提升至40.4%。
極致效率: 引入 prefix_merging 策略後,相比傳統的 per_request 模式,訓練牆鍾時間縮短約 5.39倍,GPU 利用率從20.4% 躍升至 87.7%。
行業點評
英偉達 Polar 的開源,實質上是爲“AI 智能體”領域鋪設了一條通往強化學習訓練的“高速公路”。它不僅讓研究人員能夠利用海量開源代碼框架進行高效訓練,更通過系統層面的優化降低了 GPU 算力門檻。
隨着 Polar 的普及,開發者無需再爲“如何讓模型適配訓練框架”而苦惱,未來 AI 編碼智能體的進化路徑將變得更加標準化與高效。這標誌着 AI 智能體的訓練正在從實驗室的手動調優,向規模化、系統化的工程化生產邁進。
論文地址:https://arxiv.org/pdf/2605.24220
