微軟近日發佈了 Agent Lightning,這是一個開源框架,旨在通過強化學習(RL)優化多代理系統。Agent Lightning 可以在不改變現有代理架構的情況下,將真實代理行爲轉化爲 RL 過渡,從而提升策略大規模語言模型(LLM)的性能。

Agent Lightning 將代理建模爲一個決策過程,具體來說,它將代理形式化爲部分可觀測的馬爾可夫決策過程。代理的觀察爲當前輸入,行動爲模型調用,而獎勵則可以是終極獎勵或中間獎勵。該框架提取代理模型的調用記錄,以及輸入、輸出和獎勵信息,從而過濾掉多餘的噪聲,生成用於訓練的乾淨過渡數據。
該框架採用 “訓練代理解耦” 的方法,由 Lightning Server 進行訓練和服務,並提供與 OpenAI 兼容的 API 接口,便於更新後的模型調用。而 Lightning Client 則在現有的代理運行時捕獲調用記錄,並將數據實時傳回服務器。這一設計保持了工具、瀏覽器和其他依賴關係的緊密集成,同時將 GPU 訓練放在服務器層。

Agent Lightning 支持兩種追蹤路徑。默認路徑使用 OpenTelemetry 進行數據收集,方便將代理的遙測信息傳送至標準收集器。還有一種輕量級的嵌入式追蹤器,適合不想部署 OpenTelemetry 的團隊。最終,所有數據都存儲在同一位置以供訓練使用。
在實驗方面,研究團隊評估了三項任務,分別是文本轉 SQL、檢索增強生成和數學問答。文本轉 SQL 使用 Spider 基準,涵蓋超過10,000個問題和200個數據庫。檢索增強生成利用 MuSiQue 基準,建立在包含2100萬文檔的維基百科規模索引上。而數學問答則使用 Calc X 數據集,通過工具調用進行計算。每項任務的訓練均顯示出穩定的獎勵提升。
論文:https://arxiv.org/abs/2508.03680v1
劃重點:
🌟 Agent Lightning 是一個開源框架,支持在不重構現有系統的情況下優化多代理系統。
🚀 該框架將代理建模爲部分可觀測的馬爾可夫決策過程,提取乾淨的訓練過渡數據。
📈 實驗顯示,Agent Lightning 在文本轉 SQL、檢索增強生成和數學問答任務上均取得了顯著的性能提升。
