5600 億參數震撼開源！美團 LongCat 登頂：數學證明領域迎來新“天花板”

在大模型向垂直專業領域進軍的征途中，美團剛剛交出了一份令學術界與工業界矚目的答卷。

3月21日，美團正式開源了名爲 LongCat-Flash-Prover 的超大規模數學證明模型。這款擁有 5677億參數 的巨獸，採用了先進的 MoE（混合專家模型）架構，專門針對極其複雜的數學形式化證明問題進行了深度優化。

在衡量模型邏輯推理能力的頂級基準測試中，LongCat-Flash-Prover 展現出了統治級的實力:

刷新紀錄: 在 MiniF2F-Test 測試中取得了 97.1% 的驚人成績，僅需72次推理嘗試。

攻克難題: 在 PutnamBench 任務中成功解決了41.5% 的問題，上述兩項數據均刷新了全球 SOTA（當前最佳）水平。

爲了讓大模型真正擁有“數學家”般的嚴謹，美團在技術路徑上實現了多項關鍵突破:

消除幻覺: 引入了基於 AST（抽象語法樹）的多階段嚴格驗證流程，並整合 Lean4形式化語言，從根源上杜絕了 AI 在邏輯推演中的“胡言亂語”。

訓練算法進化: 針對 MoE 模型長程任務訓練不穩的頑疾，美團引入了自研的 HisPO 算法，並配合定理一致性檢測機制，有效防止了模型在強化學習階段出現“投機取巧”的獎勵黑客行爲。

高效架構:5600億的總參數量確保了模型深厚的知識底蘊，而MoE架構則保證了推理時的靈活性與高效性。

目前，美團已將該模型及其代碼在 GitHub 和 Hugging Face 平臺全面開源。

隨着 LongCat-Flash-Prover 的亮相，國產大模型在數學邏輯、代碼驗證等高階推理領域的競爭力得到了有力證明。當複雜的定理證明不再僅僅依賴人類頭腦，而是能通過百億級激活參數的專家模型精準破解，AI 距離實現真正的“通用人工智能”又邁出了紮實的一步。

國產模型大突破！崑崙萬維發佈天工高性能 Agent 模型 SkyClaw-v1.0

崑崙萬維集團正式發佈高性能Agent模型SkyClaw-v1.0及輕量化版本SkyClaw-v1.0-lite，支持百萬token超長上下文與多步任務執行，適用於複雜工具調用、多輪任務、代碼生成等場景，標誌着國產大模型在智能體生態與長文本處理領域取得重要進展。

程序員比 AI 還便宜？美國科技巨頭燒不起 Token 紛紛開始反思