英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

5月28日，英偉達（NVIDIA）研究團隊正式開源了名爲 Polar 的強化學習訓練框架。該框架的核心創新在於，它能夠讓 Codex、Claude Code、Qwen Code 等現有主流代碼智能體（Agent）在不修改任何原生代碼的情況下，無縫接入 GRPO（廣義相對策略優化）強化學習訓練。

一、行業痛點:智能體強化學習的“圍牆”

隨着代碼智能體從簡單的單步任務邁向複雜長流程任務（如倉庫級修改、OS 交互），開發者愈發依賴成熟的執行框架(Harness)。然而，將這些複雜的框架接入傳統的強化學習基礎設施面臨巨大的壁壘:

接入成本高: 傳統方法要求將代碼邏輯強行重寫爲 env.init（）、env.step() 等標準環境接口，極其繁瑣。
信息丟失: 在重構過程中，往往會丟失關鍵的工具調用細節、多輪對話上下文或子智能體協作邏輯，導致模型無法獲取高質量的訓練信號。

二、核心解法:將“邊界”作爲訓練入口

Polar 不要求重寫執行框架，而是將“模型 API 邊界”作爲訓練的切入點。

黑盒化處理: Polar 在代碼執行框架與模型推理服務器之間設置了一個透明代理（Gateway）。無論智能體使用的是 Anthropic、OpenAI 還是 Google 的 API 接口，Polar 都能無縫攔截、轉發請求。
軌跡重構: 在轉發過程中，Polar 實時記錄提示詞、採樣 Token、對數概率等關鍵信息，並將其重建成強化學習訓練器所需的“軌跡”數據。
高效異步架構: 系統通過 Rollout Server 負責調度與持久化，Gateway Node 處理生命週期與資源回收。通過預熱緩衝池（READY buffer）與並行任務處理，有效消除了長尾任務對 GPU 的訓練阻塞。

三、性能飛躍:讓編碼智能體脫胎換骨

實驗數據顯示，Polar 配合 GRPO 訓練帶來了顯著的性能增益:

SWE-Bench Verified 基準測試: 基於同一個 Qwen3.5-4B 底座模型，在不同代碼框架下表現驚人:
- Codex 框架: pass@1分數從3.8% 飆升至26.4%（漲幅高達 594.74%）。
- Claude Code 框架: 從29.8% 提升至34.6%。
- Pi 框架: 從34.2% 提升至40.4%。
極致效率: 引入 prefix_merging 策略後，相比傳統的 per_request 模式，訓練牆鍾時間縮短約 5.39倍，GPU 利用率從20.4% 躍升至 87.7%。

行業點評

英偉達 Polar 的開源，實質上是爲“AI 智能體”領域鋪設了一條通往強化學習訓練的“高速公路”。它不僅讓研究人員能夠利用海量開源代碼框架進行高效訓練，更通過系統層面的優化降低了 GPU 算力門檻。

隨着 Polar 的普及，開發者無需再爲“如何讓模型適配訓練框架”而苦惱，未來 AI 編碼智能體的進化路徑將變得更加標準化與高效。這標誌着 AI 智能體的訓練正在從實驗室的手動調優，向規模化、系統化的工程化生產邁進。

論文地址:https://arxiv.org/pdf/2605.24220

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

一、行業痛點:智能體強化學習的“圍牆”

二、核心解法:將“邊界”作爲訓練入口

三、性能飛躍:讓編碼智能體脫胎換骨

行業點評

相關推薦

200 餘名頂尖專家含 16 位諾獎得主聯合呼籲：必須引導AI朝着有利於人類的方向發展

英偉達營收逼近千億大關，黃仁勳親自迴應架構延期傳聞

Meta大手筆：斥資 500 億美元打造5GW數據中心，AI算力格局迎來重塑

AI主權新突破：德國研究聯盟發佈開源大模型Soofi S

搶灘 OpenAI 腹地!Anthropic 啓動 Claude 盧比計價，全面發力印度市場