在大模型向垂直專業領域進軍的征途中,美團 剛剛交出了一份令學術界與工業界矚目的答卷。

3月21日,美團 正式開源了名爲 LongCat-Flash-Prover 的超大規模數學證明模型。這款擁有 5677億參數 的巨獸,採用了先進的 MoE(混合專家模型)架構,專門針對極其複雜的數學形式化證明問題進行了深度優化。

image.png

在衡量模型邏輯推理能力的頂級基準測試中,LongCat-Flash-Prover 展現出了統治級的實力:

刷新紀錄: 在 MiniF2F-Test 測試中取得了 97.1% 的驚人成績,僅需72次推理嘗試。

攻克難題: 在 PutnamBench 任務中成功解決了41.5% 的問題,上述兩項數據均刷新了全球 SOTA(當前最佳)水平。

爲了讓大模型真正擁有“數學家”般的嚴謹,美團 在技術路徑上實現了多項關鍵突破:

消除幻覺: 引入了基於 AST(抽象語法樹)的多階段嚴格驗證流程,並整合 Lean4形式化語言,從根源上杜絕了 AI 在邏輯推演中的“胡言亂語”。

訓練算法進化: 針對 MoE 模型長程任務訓練不穩的頑疾,美團引入了自研的 HisPO 算法,並配合定理一致性檢測機制,有效防止了模型在強化學習階段出現“投機取巧”的獎勵黑客行爲。

高效架構:5600億的總參數量確保了模型深厚的知識底蘊,而MoE架構則保證了推理時的靈活性與高效性。

目前,美團 已將該模型及其代碼在 GitHub 和 Hugging Face 平臺全面開源。

隨着 LongCat-Flash-Prover 的亮相,國產大模型在數學邏輯、代碼驗證等高階推理領域的競爭力得到了有力證明。當複雜的定理證明不再僅僅依賴人類頭腦,而是能通過百億級激活參數的專家模型精準破解,AI 距離實現真正的“通用人工智能”又邁出了紮實的一步。