近日,DeepSeek 和清華的研究者發佈新論文,探討了獎勵模型的推理時 Scaling 方法,讓 DeepSeek R2似乎更近一步。目前,強化學習在大語言模型的大規模後訓練階段廣泛應用,但面臨爲大語言模型獲取準確獎勵信號的挑戰。

image.png

研究者發現,採用點式生成式獎勵建模(GRM)能提升模型適應能力和推理階段可擴展性。爲此,他們提出自我原則點評調優(SPCT)學習方法,經此訓練得到 DeepSeek - GRM 模型,如基於 Gemma -2-27B 訓練的 DeepSeek - GRM -27B。實驗顯示,SPCT 顯著提高了 GRM 的質量和可擴展性,在多個基準測試中表現優於現有方法和模型。此外,研究者還引入元獎勵模型(meta RM)引導投票過程,提升擴展性能。

image.png

SPCT 方法分爲兩個階段。一是拒絕式微調作爲冷啓動階段,讓 GRM 適應不同輸入類型並以正確格式生成原則與點評內容。研究者採用點式 GRM,還引入提示式採樣提高預測獎勵與真實獎勵的一致性。二是基於規則的在線強化學習階段,採用基於規則的結果獎勵,鼓勵 GRM 生成更好的原則與點評內容,提升推理階段可擴展性。

爲提升 DeepSeek - GRM 性能,研究團隊探索推理時擴展策略。通過生成獎勵進行投票,擴大獎勵空間,提升最終獎勵質量。同時,訓練元獎勵模型引導投票,過濾低質量樣本。實驗結果表明,DeepSeek - GRM -27B 整體性能出色,通過推理時擴展還能進一步提升。消融研究顯示在線訓練對 GRM 很重要,原則生成對模型性能也至關重要。此外,研究還證明了 DeepSeek - GRM -27B 在推理時擴展上的有效性,優於單純擴大模型規模。

劃重點:

💡DeepSeek 和清華研究者提出自我原則點評調優(SPCT)方法及引入元獎勵模型(meta RM),提升獎勵模型推理時可擴展性,構建出 DeepSeek - GRM 系列模型。

🧪SPCT 分拒絕式微調與基於規則的在線強化學習兩階段,提高了 GRM 質量和擴展性,使 DeepSeek - GRM -27B 在基準測試中表現優異。

📈研究團隊探索推理時擴展策略,通過生成獎勵投票和元獎勵模型引導投票提升性能,證明 DeepSeek - GRM -27B 推理時擴展有效性優於擴大模型規模。

論文地址:

https://arxiv.org/abs/2504.02495