大模型爲何“查無此人”?MiniMax 深度覆盤“馬嘉祺”消失背後的技術真相

近日，開發者社區發現 MiniMax M2系列模型在輸出特定人名“馬嘉祺”時出現異常。MiniMax 官方隨即進行了全鏈路排查，併發布技術報告，揭示了這一現象背後的深層機制:後訓練階段（Post-training）導致的低頻 Token 退化。

排查顯示，分詞器將“馬嘉祺”切分爲 ['馬'， '嘉祺']。由於“嘉祺”在預訓練階段出現頻次高，被合併爲獨立 Token（編號190467）。然而，在決定模型對話能力的“後訓練”階段，包含該 Token 的樣本不足5條。

這種極低的出現頻次導致該 Token 在向量空間中長期未被優化，被頻繁更新的高頻 Token（如代碼符號、工具調用標記）擠壓偏移。最終，模型雖然保留了關於馬嘉祺的知識，卻失去了輸出對應 Token 的能力，轉而選擇音近的“佳琪”或“琪琪”。

通過對20萬詞表的掃描，MiniMax 發現約 4.9% 的 Token 存在顯著退化。退化最嚴重的是日語內容（退化率29.7%），這解釋了爲何模型在日語對話中偶爾會混入俄語或韓語字符——因爲日語 Token 發生了參數漂移，與其它語言在空間中產生了混淆。

此外，退化名單中還包括大量的互聯網 SEO 垃圾詞（如“傳奇私服”、“無痛人流”等）。由於這些詞彙在對話數據中幾乎爲零，模型在後訓練中逐漸“遺忘”了它們。

針對該問題，MiniMax 提出了三項核心修復策略:

全詞表合成數據: 構造復讀任務，確保每個 Token 在後訓練階段都有最低限度的練習頻率。目前，日語混淆率已從47% 降至1%，全詞表參數穩定度大幅提升。
混入預訓練語料: 在 SFT 數據中按比例加入預訓練語料，利用其廣度緩解遺忘。
詞表裁剪與監控: 移除永遠不會被使用的冗餘 Token，並將 Token 覆蓋度納入後訓練質量監控指標。

總結: “馬嘉祺”事件並非孤例，它折射出大模型分詞器設計與實際使用場景之間的脫節。MiniMax 表示，未來的數據覆蓋策略需兼顧語義層面與統計層面，確保模型在習得“聊天能力”的同時，不丟失底層的詞彙表達力。

MiniMax 大模型“叫錯人名” 稀宇科技：特定詞元后訓練不足導致

稀宇科技技術報告揭示，M2系列模型無法準確輸出“馬嘉祺”等特定人名，根源在於分詞器導致的“詞元偏移”問題。模型將名字切分爲“馬”和“嘉祺”，使得向量空間被擠壓，造成識別偏差。這暴露了當前大模型訓練中一個普遍但隱蔽的缺陷，影響了特定人名的精確生成。

阿里通義千問接入淘寶，重塑對話式購物新形態

阿里巴巴宣佈將AI大模型通義千問與淘寶深度融合，通過對話式交互革新電商購物模式。用戶可在通義千問應用中通過簡單對話完成選品到下單全流程，提升購物體驗的直觀性與智能化。爲支撐這一交互，通義千問已接入超40億款商品。

MiniMax 大模型“叫錯人名” 稀宇科技：特定詞元后訓練不足導致