近日,字節跳動旗下的 Seed AI 團隊發佈了一款名爲 Seed Prover1.5的數學推理模型,該模型在國際數學奧林匹克(IMO)比賽中表現卓越,成功獲得金牌,標誌着人工智能在數學領域的又一突破。
Seed Prover1.5採用了 Scaling Law 理論,並在16.5小時內解決了 IMO2025的前五道題,僅失一題,最終以35分的成績達到了金牌標準。這一成績與谷歌 Gemini 並駕齊驅,而字節之前的模型在當時需用三天才完成四道題,最終僅獲得銀牌。顯然,Seed Prover1.5的表現無疑爲 AI 數學推理模型設定了新標杆。

這款模型的成功並非偶然,其核心在於大規模強化學習的引入。通過訓練,模型在證明題目的成功率從最初的50% 躍升至接近90%。此外,Seed Prover1.5還在北美數學競賽 Putnam 中刷新了以往的最佳成績,顯示出其超強的解決問題能力。
Seed Prover1.5的技術報告中介紹了兩項重要創新:Agentic Prover 和 Sketch Model。Agentic Prover 採用了一種新的形式化數學推理方式,利用 Lean 等形式語言進行可驗證的證明。這種方法相比傳統的自然語言推理更爲嚴謹,但也更具挑戰性。爲了克服這一難點,Seed Prover1.5支持模型在推理過程中調用多個工具,比如檢索 Lean 的數學庫 Mathlib 和編寫 Python 腳本進行計算。

而 Sketch Model 則是爲了幫助模型更好地 “打草稿”。該模型模擬了人類數學家解決問題的思路,允許其先進行非正式的證明草稿,列出關鍵的引理和思路,再轉化爲形式化證明。通過混合獎勵信號的強化學習策略,Sketch Model 不僅提高了整體邏輯的規劃能力,還有效降低了複雜問題的難度。
總的來說,Seed Prover1.5不僅展示了字節在 AI 數學推理領域的創新與實力,也爲未來的數學研究和教育提供了新的可能性。
論文地址:https://arxiv.org/pdf/2512.17260
