最近、稀宇科技(MiniMax)は技術報告を発表し、M2シリーズモデルが「マージャキ」などの特定の人名を正確に出力できない深層的な理由を詳細に分析しました。このように見える偶発的なエラーは、実際には現在の大規模モデルトレーニングにおいて広く存在する隠れた欠点を明らかにしています。

トークンのシフト:圧縮されたベクトル空間

問題の核心は、大規模モデルがテキストを処理する基本単位である「トークナイザ」にあります。例えば「マージャキ」という名前は、モデル内部で「マ」および「ジャキ」の2つのトークンに分割されます。モデルは大量のデータで予学習段階でこれらの語彙を学んでいますが、その後の「後学習」(指示微調整)段階で問題が生じます。

image.png

後学習で使用される選別された対話データにおいて、「ジャキ」という語彙が極めて頻繁に出現しないため、このトークンはほぼゼロトレーニング状態に陥りました。一方でコード記号やツール呼び出しなどの高頻度トークンはトレーニング中に不断に強化され、そのベクトルパラメータの更新が低頻度トークンの生存空間を継続的に圧迫しました。最終的には、これらの低頻度トークンが正しい確率区間から外れ、モデルが特定の芸能人を呼ぶ際に、「ジャキ」や「キキ」と読みが似た言葉を選ばざるを得ないようになりました。

中国語だけでなく:日本語の中にロシア語が混入する連鎖反応

MiniMaxの調査によると、このような「トークンの劣化」現象は個別の事例ではありません。約20万のトークンをすべてスキャンした結果、約4.9%のトークンが顕著な性能低下を示しました。そのうち、日本語トークンの劣化割合は驚くほど29.7%にも達し、これはこのモデルが日本語会話中に突然ロシア語や韓国語の文字を混入してしまう原因でもあります。

image.png

人名や外国語だけでなく、影響を受けているのはLaTeX数式記号やウィキペディアソースコードの記号、さらにはいくつかのSEOスパムキーワードも含まれます。この発見は、データの疎らさが及ぼす影響が全体的なものであることを証明しています。つまり、後学習データが異なる言語や特定の語彙を均等にカバーできていない場合、モデルの生成論理にバイアスが生じることになります。

システム的な修復:20万のトークンに「最低保障」を設ける

この構造的な課題に対し、研究チームは正確な修復策を採用しました。彼らは全トークン表をカバーする合成データを構築し、モデルに「再読込」タスクを強制することで、各トークンに生成頻度の「下限保証」を設けました。

修復後のデータでは、モデルの全トークン表の出力安定性が大幅に向上し、日本語回答の中で異言語の文字が混入する割合も以前の47%から1%に急激に減少しました。現在、チームはさらに深い最適化方針を探求しており、微調整段階で予学習データを混ぜ込むことや、語彙表から使用されなくなった不要な記号を直接削除することなどが検討されています。

この出来事は業界の深い反省を引き起こしました。大規模モデルのトークナイザは広範なネットワーク文脈に基づいていますが、下流のアプリケーション場面はそれぞれ異なる傾向を持っています。語義の多様性を追求しながら、根本的な統計学的視点からトークンレベルのデータカバーを確保することが、今後の大規模モデルの信頼性向上の鍵となるでしょう。