字節 Seed 新模型問世：數學競賽金牌實力爆表，AI 推理邁入新階段！

近日，字節跳動旗下的 Seed AI 團隊發佈了一款名爲 Seed Prover1.5的數學推理模型，該模型在國際數學奧林匹克（IMO）比賽中表現卓越，成功獲得金牌，標誌着人工智能在數學領域的又一突破。

Seed Prover1.5採用了 Scaling Law 理論，並在16.5小時內解決了 IMO2025的前五道題，僅失一題，最終以35分的成績達到了金牌標準。這一成績與谷歌 Gemini 並駕齊驅，而字節之前的模型在當時需用三天才完成四道題，最終僅獲得銀牌。顯然，Seed Prover1.5的表現無疑爲 AI 數學推理模型設定了新標杆。

這款模型的成功並非偶然，其核心在於大規模強化學習的引入。通過訓練，模型在證明題目的成功率從最初的50% 躍升至接近90%。此外，Seed Prover1.5還在北美數學競賽 Putnam 中刷新了以往的最佳成績，顯示出其超強的解決問題能力。

Seed Prover1.5的技術報告中介紹了兩項重要創新:Agentic Prover 和 Sketch Model。Agentic Prover 採用了一種新的形式化數學推理方式，利用 Lean 等形式語言進行可驗證的證明。這種方法相比傳統的自然語言推理更爲嚴謹，但也更具挑戰性。爲了克服這一難點，Seed Prover1.5支持模型在推理過程中調用多個工具，比如檢索 Lean 的數學庫 Mathlib 和編寫 Python 腳本進行計算。

而 Sketch Model 則是爲了幫助模型更好地 “打草稿”。該模型模擬了人類數學家解決問題的思路，允許其先進行非正式的證明草稿，列出關鍵的引理和思路，再轉化爲形式化證明。通過混合獎勵信號的強化學習策略，Sketch Model 不僅提高了整體邏輯的規劃能力，還有效降低了複雜問題的難度。

總的來說，Seed Prover1.5不僅展示了字節在 AI 數學推理領域的創新與實力，也爲未來的數學研究和教育提供了新的可能性。

論文地址：https://arxiv.org/pdf/2512.17260

小米發佈具身智能基底模型Xiaomi-Robotics-1，探索物理AI Scaling效應

7月16日，小米發佈面向真實移動操作的具身基底模型Xiaomi-Robotics-1。該模型基於10萬小時真實世界數據預訓練，結合跨本體後訓練，突破傳統機器人策略的硬件依賴與數據規模瓶頸；預訓練階段引入UMI（通用操作接口），標誌着小米在具身智能領域系統化推進規模法則（Scaling Law）。

微軟14B參數模型挑戰671B巨型AI 智能體強化學習重新定義數學推理

微軟開源140億參數rStar2-Agent模型，通過智能體強化學習技術實現突破。該模型在數學推理基準測試中超越6710億參數的DeepSeek-R1，核心創新在於採用智能體交互機制替代傳統思維鏈方法，能自主規劃推理、調用Python代碼驗證並動態調整步驟，有效避免推理錯誤。

Llama 4啓動訓練 Meta科學家揭祕Llama 3.1訓練背後的故事

Meta的科學家Thomas Scialom揭示了Llama3.1的開發祕訣，其405B的參數規模是爲了對抗GPT-4。通過增加訓練的token數而非架構，Llama3.1實現了模型規模與訓練數據總量的優化平衡，達到了知識深度與廣度的飛躍。數據選擇上，Scialom更傾向於合成數據而非公開互聯網文本。Llama3.1的評估與改進採用獎勵模型和多樣化基準，同時引入了Toolformer等agent工具的開發，標誌着AI領域的創新探索。Llama3.1的開源是Meta對未來AI的一次大膽嘗試。Llama4的啓動將重點放在agent技術上，預示着Meta在AI領域的持續領導地位和未來AI的重新定義。

小紅書開源InstanceAssemble！輕量級佈局可控生成框架，複雜多實例圖像生成精度再突破

小紅書開源可控圖像生成框架InstanceAssemble，專爲高密度、多對象、複雜空間關係的圖像生成任務設計。該框架通過級聯建模與Assemble-Attention機制，在僅增加極低參數的情況下，顯著提升生成圖像的空間對齊精度與語義一致性，爲電商、設計等場景提供工業級解決方案。

字節 Seed 新模型問世：數學競賽金牌實力爆表，AI 推理邁入新階段！

相關推薦

小米發佈具身智能基底模型Xiaomi-Robotics-1，探索物理AI Scaling效應

字節跳動發佈 Seed Prover1.5:推動形式化數學推理的新進展

微軟14B參數模型挑戰671B巨型AI 智能體強化學習重新定義數學推理

Llama 4啓動訓練 Meta科學家揭祕Llama 3.1訓練背後的故事

小紅書開源InstanceAssemble！輕量級佈局可控生成框架，複雜多實例圖像生成精度再突破