DeepSeek 與清華聯合研究:創新獎勵模型推理方法，提升可擴展性

近日，DeepSeek 和清華的研究者發佈新論文，探討了獎勵模型的推理時 Scaling 方法，讓 DeepSeek R2似乎更近一步。目前，強化學習在大語言模型的大規模後訓練階段廣泛應用，但面臨爲大語言模型獲取準確獎勵信號的挑戰。

研究者發現，採用點式生成式獎勵建模（GRM）能提升模型適應能力和推理階段可擴展性。爲此，他們提出自我原則點評調優(SPCT)學習方法，經此訓練得到 DeepSeek - GRM 模型，如基於 Gemma -2-27B 訓練的 DeepSeek - GRM -27B。實驗顯示，SPCT 顯著提高了 GRM 的質量和可擴展性，在多個基準測試中表現優於現有方法和模型。此外，研究者還引入元獎勵模型(meta RM)引導投票過程，提升擴展性能。

SPCT 方法分爲兩個階段。一是拒絕式微調作爲冷啓動階段，讓 GRM 適應不同輸入類型並以正確格式生成原則與點評內容。研究者採用點式 GRM，還引入提示式採樣提高預測獎勵與真實獎勵的一致性。二是基於規則的在線強化學習階段，採用基於規則的結果獎勵，鼓勵 GRM 生成更好的原則與點評內容，提升推理階段可擴展性。

爲提升 DeepSeek - GRM 性能，研究團隊探索推理時擴展策略。通過生成獎勵進行投票，擴大獎勵空間，提升最終獎勵質量。同時，訓練元獎勵模型引導投票，過濾低質量樣本。實驗結果表明，DeepSeek - GRM -27B 整體性能出色，通過推理時擴展還能進一步提升。消融研究顯示在線訓練對 GRM 很重要，原則生成對模型性能也至關重要。此外，研究還證明了 DeepSeek - GRM -27B 在推理時擴展上的有效性，優於單純擴大模型規模。

劃重點:

💡DeepSeek 和清華研究者提出自我原則點評調優（SPCT）方法及引入元獎勵模型(meta RM)，提升獎勵模型推理時可擴展性，構建出 DeepSeek - GRM 系列模型。

🧪SPCT 分拒絕式微調與基於規則的在線強化學習兩階段，提高了 GRM 質量和擴展性，使 DeepSeek - GRM -27B 在基準測試中表現優異。

📈研究團隊探索推理時擴展策略，通過生成獎勵投票和元獎勵模型引導投票提升性能，證明 DeepSeek - GRM -27B 推理時擴展有效性優於擴大模型規模。

論文地址:

https://arxiv.org/abs/2504.02495

DeepMind 推出 Crome:提升大型語言模型對人類反饋的對齊能力

在人工智能領域，獎勵模型是對齊大型語言模型（LLMs）與人類反饋的關鍵組成部分，但現有模型面臨着 “獎勵黑客” 問題。這些模型往往關注表面的特徵，例如回覆的長度或格式，而不是識別真正的質量指標，如事實準確性和相關性。問題的根源在於，標準訓練目標無法區分訓練數據中存在的虛假關聯和真實的因果驅動因素。這種失敗導致了脆弱的獎勵模型（RMs），從而生成不對齊的策略。爲了解決這一問題，需要一種利用因果理解來訓練 RMs 的新方法，以便對因果質量屬性敏感，並對

崑崙萬維再次開源獎勵模型Skywork-Reward-V2

2025年7月4日，崑崙萬維乘勢而上，繼續開源第二代獎勵模型Skywork-Reward-V2系列。此係列共包含8個基於不同基座模型、參數規模從6億到80億不等的獎勵模型，一經推出便在七大主流獎勵模型評測榜單中全面奪魁，成爲開源獎勵模型領域的焦點。獎勵模型在從人類反饋中強化學習（RLHF）過程中起着關鍵作用。爲打造新一代獎勵模型，崑崙萬維構建了包含4000萬對偏好對比的混合數據集Skywork-SynPref-40M。在數據處理上，團隊採用人機協同的兩階段流程，將人工標註的高質量與模型的規模化處理能力相結合。第一階段，先構建未經驗證的初始偏好池，藉助

DeepSeek官方澄清：R2模型3月17日發佈傳聞爲假消息

今日，中國人工智能公司DeepSeek通過官方渠道正式闢謠，否認了其下一代AI模型DeepSeek R2將於3月17日發佈的傳聞。此前，X平臺上流傳的消息稱，DeepSeek R2即將在本月中旬亮相，並可能帶來編程能力、多語言推理以及成本效益的重大突破。然而，DeepSeek官方企業諮詢賬號在用戶羣中明確迴應:“闢謠:R2發佈爲假消息”，徹底澆滅了這一猜測。這一傳聞最初於近日在X平臺發酵。小互今日早些時候發帖稱，DeepSeek R2預計將在3月17日發佈，並引用未經證實的消息來源，引發了廣泛討論。隨後，ANDREW_FDWT

DeepSeek R2 或於3月17日發佈，將撼動Claude Sonnet 3.7的地位

根據X平臺上的最新消息，DeepSeek下一代AI模型DeepSeek R2或將於3月17日正式發佈。這一消息迅速引發業界關注，許多人認爲這一新模型可能會對現有AI巨頭，如Anthropic的Claude Sonnet3.7，構成強有力的挑戰。據X用戶 tanvitabs 今日凌晨發佈的帖子透露，DeepSeek R2宣稱在多個關鍵領域實現突破，包括更出色的編程能力、多語言推理能力，以及以更低的成本提供更高的準確性。這些特性若得以兌現可能使其在全球AI競賽中佔據顯著優勢。帖子中還提到，DeepSeek的前一代模型R1已經因其成本效益和性能表現引

崑崙萬維發佈全新大模型獎勵模型Skywork-Reward