近日,稀宇科技(MiniMax)發佈了一份技術報告,詳細剖析了其 M2系列模型爲何無法準確輸出“馬嘉祺”等特定人名的深層原因。這起看似偶然的錯誤,實際上揭示了當前大模型訓練中普遍存在的一個隱蔽缺陷。
詞元偏移:被“擠壓”的向量空間
問題的核心源於大模型處理文本的基本單位——分詞器(Tokenizer)。以“馬嘉祺”爲例,該名字在模型內部被切分爲“馬”和“嘉祺”兩個詞元。雖然模型在海量數據的預訓練階段已經學習過這些詞彙,但在隨後的“後訓練”(指令微調)階段,問題出現了。

由於後訓練使用的精選對話數據中,“嘉祺”一詞出現的頻率極低,導致該詞元幾乎處於零訓練狀態。與此同時,代碼符號、工具調用等高頻詞元在訓練中不斷強化,其向量參數的更新持續“擠壓”了低頻詞元的生存空間。最終,這些低頻詞元偏離了正確的概率區間,導致模型在嘗試稱呼特定藝人時,只能退而求其次,選擇了讀音相近的“佳琪”或“琪琪”。
不止是中文:日語混入俄語的連鎖反應
MiniMax 的排查顯示,這種“詞元退化”現象並非個案。經過對全詞表約20萬個詞元的掃描,發現約4.9% 的詞元都出現了顯著的性能衰退。其中,日文詞元的退化比例竟高達29.7%,這也是該模型在進行日語對話時偶爾會莫名混入俄語或韓語字符的根源。

除了人名和外語,受影響的還包括 LaTeX 公式標記、維基百科源碼符號,甚至還有一些 SEO 垃圾關鍵詞。這一發現證明了數據稀疏帶來的後果是全局性的:當後訓練數據無法均衡覆蓋不同語種和特定詞彙時,模型的生成邏輯就會產生偏差。
系統性修復:爲20萬個詞元建立“低保”
針對這一結構性難題,研發團隊採取了精準的修復方案。他們通過構造覆蓋全詞表的合成數據,強制模型進行“復讀”任務,從而爲每一個詞元建立了生成頻率的“底線保障”。
修復後的數據顯示,模型全詞表輸出的穩定性大幅提升,日語回答中混入異語字符的比例也從之前的47% 驟降至1%。目前,團隊仍在探索更深層的優化方案,例如在微調階段混入預訓練語料,或直接清理詞表中不再使用的冗餘標記。
這起事件引發了行業的深刻反思:大模型的分詞器往往基於廣闊的網絡語料,但下游應用場景卻各有側重。如何在追求語義多樣性的同時,從底層統計學視角確保詞元層面的數據覆蓋,將是未來提升大模型可靠性的關鍵課題。
