微軟推出 Agent Lightning:全新 AI 框架助力強化學習訓練大規模語言模型

微軟近日發佈了 Agent Lightning，這是一個開源框架，旨在通過強化學習（RL）優化多代理系統。Agent Lightning 可以在不改變現有代理架構的情況下，將真實代理行爲轉化爲 RL 過渡，從而提升策略大規模語言模型(LLM)的性能。

Agent Lightning 將代理建模爲一個決策過程，具體來說，它將代理形式化爲部分可觀測的馬爾可夫決策過程。代理的觀察爲當前輸入，行動爲模型調用，而獎勵則可以是終極獎勵或中間獎勵。該框架提取代理模型的調用記錄，以及輸入、輸出和獎勵信息，從而過濾掉多餘的噪聲，生成用於訓練的乾淨過渡數據。

該框架採用 “訓練代理解耦” 的方法，由 Lightning Server 進行訓練和服務，並提供與 OpenAI 兼容的 API 接口，便於更新後的模型調用。而 Lightning Client 則在現有的代理運行時捕獲調用記錄，並將數據實時傳回服務器。這一設計保持了工具、瀏覽器和其他依賴關係的緊密集成，同時將 GPU 訓練放在服務器層。

Agent Lightning 支持兩種追蹤路徑。默認路徑使用 OpenTelemetry 進行數據收集，方便將代理的遙測信息傳送至標準收集器。還有一種輕量級的嵌入式追蹤器，適合不想部署 OpenTelemetry 的團隊。最終，所有數據都存儲在同一位置以供訓練使用。

在實驗方面，研究團隊評估了三項任務，分別是文本轉 SQL、檢索增強生成和數學問答。文本轉 SQL 使用 Spider 基準，涵蓋超過10，000個問題和200個數據庫。檢索增強生成利用 MuSiQue 基準，建立在包含2100萬文檔的維基百科規模索引上。而數學問答則使用 Calc X 數據集，通過工具調用進行計算。每項任務的訓練均顯示出穩定的獎勵提升。

論文:https://arxiv.org/abs/2508.03680v1

劃重點:
🌟 Agent Lightning 是一個開源框架，支持在不重構現有系統的情況下優化多代理系統。
🚀 該框架將代理建模爲部分可觀測的馬爾可夫決策過程，提取乾淨的訓練過渡數據。
📈 實驗顯示，Agent Lightning 在文本轉 SQL、檢索增強生成和數學問答任務上均取得了顯著的性能提升。

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

7月2日，開源強化學習基礎設施項目AReaL發佈2.0版，旨在打通基礎模型訓練與智能體應用間的鏈路，爲Agent場景提供強化學習訓練支撐。2.0版面向真實業務，提供持續學習基礎設施，可記錄、整理Agent在任務中的交互過程並接入後續訓練流程，讓智能體在使用中持續進化。

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

英偉達開源Polar強化學習訓練框架，核心創新在於使Codex、Claude Code等主流代碼智能體無需修改原生代碼即可接入GRPO訓練。該框架解決代碼智能體從單步任務向複雜長流程任務（如倉庫級修改、OS交互）演進時的行業痛點，打破了智能體強化學習的“圍牆”。

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

微軟推出 Agent Lightning:全新 AI 框架助力強化學習訓練大規模語言模型

相關推薦

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

前 DeepMind 團隊量化 AI 公司 EquiLibre 完成 A 輪融資，估值達5億美元

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”