蘋果推出AI訓練新方法用任務清單替代人工評分顯著提升模型性能

蘋果公司研究團隊近日在最新論文中提出了一種名爲"基於清單反饋的強化學習"（RLCF）的創新訓練方法，通過用具體任務清單替代傳統的人工點贊評分機制，大幅提升了大語言模型執行復雜指令的能力。

據瞭解，RLCF全稱爲Reinforcement Learning from Checklist Feedback，與目前廣泛採用的"人類反饋強化學習"（RLHF）方法形成鮮明對比。傳統RLHF方法主要依賴人工進行簡單的點贊或點踩評價，而RLCF則爲每條用戶指令生成詳細的檢查清單，並按0-100分的標準對各項內容進行精確評分，以此作爲模型優化的指導依據。

蘋果研究團隊選擇了強指令跟隨模型Qwen2.5-7B-Instruct作爲測試對象，並在五個常用評測基準上進行了全面驗證。測試結果顯示，RLCF是唯一在所有測試項目中都取得性能提升的訓練方案。

具體數據顯示，在FollowBench測試中，硬性滿意率提升了4個百分點。InFoBench評分提高6點，Arena-Hard勝率增加3點。在某些特定任務中，性能提升幅度最高達到8.2%。這些數據表明，清單反饋方法在處理複雜多步驟任務時表現尤爲突出。

在技術實現方面，蘋果團隊的清單生成過程頗具創新性。他們採用更大規模的Qwen2.5-72B-Instruct模型，結合現有研究方法，爲13萬條指令構建了名爲"WildChecklists"的專用數據集。清單內容設計爲明確的二元判斷項，例如"是否翻譯成西班牙語"等具體要求。隨後，大模型對候選回答進行逐項評分，通過綜合加權處理後形成訓練獎勵信號，指導小模型的學習優化過程。

不過，蘋果研究人員也坦率承認了該方法的侷限性。首先，RLCF需要依賴更強大的模型作爲評判標準，這在計算資源受限的場景下可能面臨實施困難。其次，該方法專門針對複雜指令執行能力的提升而設計，並非用於安全對齊目的，因此無法替代現有的安全性評估和調優機制。對於其他類型的AI任務，RLCF方法的適用性還需要進一步的實驗驗證。

業界專家認爲，蘋果此次提出的RLCF方法爲AI模型訓練提供了新的思路，特別是在處理複雜多步驟任務方面展現出明顯優勢。隨着技術的進一步完善，這一方法有望在實際應用中發揮更大作用。

蘋果推出AI訓練新方法用任務清單替代人工評分顯著提升模型性能

相關推薦

英國有望在人工智能芯片市場佔據重要份額

馬斯克否認 xAI 完成150億美元融資傳聞:一句“虛假”迴應報道

馬斯克勝利在望：法官拒絕蘋果與 OpenAI 駁回訴訟請求

Google NotebookLM上線Deep Research功能並新增多格式文件支持

以色列AI初創企業 Wonderful 在短短10個月內獲得1億美元 A 輪融資

蘋果推出AI訓練新方法 用任務清單替代人工評分顯著提升模型性能

相關推薦

英國有望在人工智能芯片市場佔據重要份額

馬斯克否認 xAI 完成150億美元融資傳聞:一句“虛假”迴應報道

馬斯克勝利在望：法官拒絕蘋果與 OpenAI 駁回訴訟請求

Google NotebookLM上線Deep Research功能並新增多格式文件支持

​以色列AI初創企業 Wonderful 在短短10個月內獲得1億美元 A 輪融資

蘋果推出AI訓練新方法用任務清單替代人工評分顯著提升模型性能

以色列AI初創企業 Wonderful 在短短10個月內獲得1億美元 A 輪融資