蘋果公司研究團隊近日在最新論文中提出了一種名爲"基於清單反饋的強化學習"(RLCF)的創新訓練方法,通過用具體任務清單替代傳統的人工點贊評分機制,大幅提升了大語言模型執行復雜指令的能力。
據瞭解,RLCF全稱爲Reinforcement Learning from Checklist Feedback,與目前廣泛採用的"人類反饋強化學習"(RLHF)方法形成鮮明對比。傳統RLHF方法主要依賴人工進行簡單的點贊或點踩評價,而RLCF則爲每條用戶指令生成詳細的檢查清單,並按0-100分的標準對各項內容進行精確評分,以此作爲模型優化的指導依據。

蘋果研究團隊選擇了強指令跟隨模型Qwen2.5-7B-Instruct作爲測試對象,並在五個常用評測基準上進行了全面驗證。測試結果顯示,RLCF是唯一在所有測試項目中都取得性能提升的訓練方案。
具體數據顯示,在FollowBench測試中,硬性滿意率提升了4個百分點。InFoBench評分提高6點,Arena-Hard勝率增加3點。在某些特定任務中,性能提升幅度最高達到8.2%。這些數據表明,清單反饋方法在處理複雜多步驟任務時表現尤爲突出。

在技術實現方面,蘋果團隊的清單生成過程頗具創新性。他們採用更大規模的Qwen2.5-72B-Instruct模型,結合現有研究方法,爲13萬條指令構建了名爲"WildChecklists"的專用數據集。清單內容設計爲明確的二元判斷項,例如"是否翻譯成西班牙語"等具體要求。隨後,大模型對候選回答進行逐項評分,通過綜合加權處理後形成訓練獎勵信號,指導小模型的學習優化過程。
不過,蘋果研究人員也坦率承認了該方法的侷限性。首先,RLCF需要依賴更強大的模型作爲評判標準,這在計算資源受限的場景下可能面臨實施困難。其次,該方法專門針對複雜指令執行能力的提升而設計,並非用於安全對齊目的,因此無法替代現有的安全性評估和調優機制。對於其他類型的AI任務,RLCF方法的適用性還需要進一步的實驗驗證。
業界專家認爲,蘋果此次提出的RLCF方法爲AI模型訓練提供了新的思路,特別是在處理複雜多步驟任務方面展現出明顯優勢。隨着技術的進一步完善,這一方法有望在實際應用中發揮更大作用。
