指標驚豔卻遭社區聲討？MiniMax新旗艦模型M3 引發兩極分化爭議

大模型賽道再掀波瀾。AI初創公司MiniMax日前正式發佈了全新旗艦大模型M3。從技術報告披露的各項基準測試（Benchmark）來看，該模型的性能表現堪稱驚豔:在公認接近真實軟件工程場景的測試中，M3取得了59%的優異成績，不僅超越了GPT-5.5，更是直逼Opus4.7。此外，它還具備百萬級上下文處理能力和原生多模態特性。然而，與強勁技術指標形成鮮明對比的是，該模型發佈後引發了開發者社區的劇烈反彈，中文社區更是罵聲一片。

引發業內質疑的第一個核心焦點在於評測數據背後的“心機”。技術細則顯示，M3在 Coding（代碼）能力的相關測試中，使用了競爭對手的Claude Code作爲評測腳手架。儘管在當前行業中，利用現成工具鏈跑智能體(Agent)評測屬於常見操作，但MiniMax用他人的框架測自己的能力，並直接拿高分與對方比肩進行對外宣傳，這種做法被不少程序員吐槽“不夠坦蕩”。用戶難以分辨最終的亮眼成績中，究竟有多少成分是模型的原生能力，有多少是腳手架的加成。

其次，關於“開源”的誠意問題也讓開源社區充滿困惑。與其他廠商發佈開源模型不同，MiniMax此次不僅沒有公開M3的模型大小，更沒有同步釋出模型“權重”，僅表示將在發佈後10天內開源，目前用戶只能通過API進行訪問。由於開源社區的核心價值在於“可復現與可驗證”，這種先宣傳開源卻不給權重、讓所有人無法在本地環境獨立摸清模型底細的做法，在商業邏輯上雖可理解，卻嚴重傷害了追求務實與坦誠的開發者羣體。

最讓重度老用戶感到“背刺”的，則是計費規則（Coding Plan）的無預告調整。此前，MiniMax因按請求次數限制速率、不設月度Token總量上限而被稱爲“量大管飽”。但隨着M3的發佈，官方同步推出了全新的Token Plan，將規則改爲了總量計費。儘管官方宣稱Plus套餐的Token用量極具性價比，但在百萬上下文的重度使用場景下，單次調用往往消耗巨大，新規則會導致套餐額度迅速見底，從而引發了老用戶的集體聲討。

拋開這些運營上的爭議，M3在底層架構上的創新依然不乏亮點。它自研了名爲MSA（MiniMax Sparse Attention）的稀疏注意力機制，通過對KV(Key-Value)進行高精度分塊和稀疏化處理，突破了傳統Transformer在長上下文計算中計算量暴漲的魔咒。在底層算子層面，該模型首創了全新的計算聚合方式，內存訪問更加連續，速度比開源的Flash-Sparse-Attention快4倍以上。這使得M3在百萬上下文下的前向傳播和解碼速度分別提升了9倍和15倍，單Token計算量驟降至上一代的二分之一。

從純技術路線來看，M3在長上下文、多模態和智能體能力上的均衡度在國內廠商中較爲突出。然而，本次由於發佈和運營方式上的一系列“騷操作”，讓技術本身的閃光點被社區的爭議聲所掩蓋。市場對M3的密切關注與情緒反彈，表明開發者對該產品仍抱有期待，而MiniMax能否重新贏回社區的信任，答案或許要在10天后模型權重正式放出來、接受獨立評測後才能揭曉。

指標驚豔卻遭社區聲討？MiniMax新旗艦模型M3 引發兩極分化爭議

相關推薦

原“阿里雲開發者”公衆號正式更名爲“千問AI平臺”

中國電信把5G建網交給大模型：規劃效率翻一半，方案准確率站上75%

騰訊WorkBuddy6月訪問量超2000萬，領跑AI辦公智能體市場

Kimi因算力緊缺暫停C端新用戶訂閱，全速推進集羣擴容

阿里新一代大模型千問3. 8 將至：預覽版搶先登陸阿里雲與Qoder，正式版擬近期開源