隨着 AI 技術的不斷進步,如何讓大模型具備 “並行思維” 能力,成爲了研究者們關注的熱點話題。最近,騰訊 AI Lab 聯合多所高校的研究團隊推出了一個名爲 Parallel-R1的全新強化學習(RL)框架,旨在教會大模型如何同時探索多條推理路徑。這一創新的框架爲應對複雜的數學推理任務開闢了新思路。

image.png

傳統的方法往往依賴於監督微調(SFT),這種方式不僅對數據質量要求極高,而且模型通常只會模仿已有的數據,缺乏自主學習和泛化能力。爲了解決這些問題,Parallel-R1框架應運而生。研究團隊的關鍵發現是,利用簡單的提示,可以讓模型在處理簡單數學題時生成高質量的並行思維數據。隨後,通過一套 “漸進式課程” 的訓練模式,模型先從簡單任務開始學習並行思維的 “語法格式”,再逐步過渡到更復雜的數學問題中進行強化學習。

image.png

此外,團隊還針對獎勵設計的問題提出了一種交替式獎勵策略,巧妙地平衡了 “解題準確率” 和 “思維多樣性”。在訓練過程中,模型大部分時間以 “準確率獎勵” 爲主,而少部分時間則給予並行思維使用的額外獎勵。這種策略顯著提高了模型的並行思維使用率,最終在多個數學基準測試中取得了顯著提升。

實驗結果顯示,Parallel-R1框架不僅使模型在多個數學基準上提升了高達8.4% 的平均準確率,在 AIME25測試中更是實現了42.9% 的性能飛躍。研究者們發現,經過訓練,模型的思維策略會逐漸從初期的 “廣撒網” 式探索,轉變爲後期的 “精準驗證”,充分展現了並行思維帶來的優勢。

Parallel-R1的成功不僅爲大模型的推理能力開闢了新方向,也爲今後的 AI 研究提供了新的思路,顯示了並行思維在解決複雜任務中的潛力。