在大模型向垂直專業領域進軍的征途中,
3月21日,

在衡量模型邏輯推理能力的頂級基準測試中,
刷新紀錄: 在 MiniF2F-Test 測試中取得了 97.1% 的驚人成績,僅需72次推理嘗試。
攻克難題: 在 PutnamBench 任務中成功解決了41.5% 的問題,上述兩項數據均刷新了全球 SOTA(當前最佳)水平。
爲了讓大模型真正擁有“數學家”般的嚴謹,
消除幻覺: 引入了基於 AST(抽象語法樹)的多階段嚴格驗證流程,並整合 Lean4形式化語言,從根源上杜絕了 AI 在邏輯推演中的“胡言亂語”。
訓練算法進化: 針對 MoE 模型長程任務訓練不穩的頑疾,美團引入了自研的 HisPO 算法,並配合定理一致性檢測機制,有效防止了模型在強化學習階段出現“投機取巧”的獎勵黑客行爲。
高效架構:5600億的總參數量確保了模型深厚的知識底蘊,而
目前,
隨着
