近日,美團宣佈推出一款基於混合專家架構的大型推理模型 ——LongCat-Flash-Thinking。這個新模型的參數量高達5600億,令人矚目!但最令人驚喜的是,它能夠根據上下文需求動態激活186億至313億個參數,平均激活約270億個參數。這種靈活的設計使得模型在多種任務上表現出色,特別是在邏輯推理、數學運算和編程等領域。

根據美團的官方數據顯示,LongCat-Flash-Thinking 在一系列基準測試中與其他主流模型進行了深入比較。在數學推理方面,例如 MATH500和 AIME25的測試中,該模型表現不凡,甚至聲稱使用原生工具可以減少64.5% 的 token 消耗,依然能夠達到頂級準確率。此外,在通用推理(GPQA-Diamond)、代碼生成(LiveCodeBench, OJBench)和形式化定理證明(MiniF2F-Test)等領域,它的表現也接近行業領先水平。

LongCat-Flash-Thinking 的模型權重已按照 MIT 許可證開源,開發者們現在可以自由使用和研究這個強大的工具。官方也提供了詳細的聊天模板,並已上線專屬聊天網站,方便用戶進行互動與實踐。
LongCat-Flash-Thinking 不僅僅是一款大規模的 AI 模型,更是美團在人工智能研究領域的一次重要嘗試。其出色的性能和靈活的架構將爲後續的應用開發和研究提供新的可能性。
官網地址:https://longcat.chat/
