13か月間の更新が停止した後、元OpenAIのセキュリティ研究副社長で、現在はThinking Machines Labの共同創業者のワン・リ(翁荔)氏が自身のブログ「Lil'Log」に、一万字を超える技術的な記事「Scaling Laws, Carefully(スケーリング法則、丁寧に)」を掲載しました。この記事では、「3年以上遅れた」と述べています。この記事では、大規模モデル業界に数百億ドルを投資してきたスケーリング法則を一から分解し、その中心的な結論は多くの業界関係者にとって落ち着かないものとなっています:現在のモデルにおけるデータの比率は、おそらく最初から誤っていた可能性があります。
KaplanからChinchillaへ:逆転した業界の合意
物語は2020年に始まります。OpenAIの研究者であるJared Kaplan氏が論文を発表し、ログ-ログ座標において、トレーニング損失がパラメータ数、データ量、および計算力と美しいべき乗則で減少することを示しました。これは、モデルの規模がデータよりも速く増加すべきであるという結論でした。GPT-3もこの結論の産物であり、1750億のパラメータに対して、トレーニングデータはわずか3000億のトークンでした。
2年後、DeepMindチームがより大きな規模の実験によってこの結論を打ち破りました。2800億のパラメータを持つGopherと、700億のパラメータを持つChinchillaを同じ計算力で比較した結果、ChinchillaのパラメータはGopherの4分の1しかありませんでしたが、トレーニングデータは4倍以上だったのです。その結果、ChinchillaはすべてのテストでGopherを圧倒しました。Chinchillaが明らかにした法則は、パラメータとデータが等しい比率で増加すべきであり、最適な比率は約1:20であるということでした。Kaplanが述べたようなパラメータの急激な増加とデータの遅い増加とは異なります。これにより、後のLlamaやDeepSeekなどのモデルがGPT-3のパラメータ数には及ばないものの、性能ははるかに優れていることが説明されます。
ワン・リはKaplanの偏差の原因を分析しました。彼の実験で最大のモデルは15億のパラメータに過ぎず、小規模な範囲での適合差がテラスケールに外挿された際にシステム的な誤りとなること、そして埋め込み層のパラメータカウントを除外していたこと、これらの点が影響を与えました。さらに驚いたことに、2024年にEpoch AIチームがChinchillaの適合コードを一行一行再現した際には、2つのバグが見つかりました。それは、損失関数を平均値ではなく合計値として取っていたためにオプティマイザが収束を誤って判断し、主要なべき乗指数が小数第2位まで四捨五入されることで仮想的な精度が生まれたことです。修正されたデータは再度、等比増加の結論を確認しました。
データの壁が迫る、繰り返し訓練の限界効果の指数的減衰
上述の議論は「トレーニングデータは無限で重複していない」という前提に基づいています。しかし、高品質なテキストデータは2026年から2028年の間に枯渇する見込みです。研究によると、重複データの有効価値は指数的に減衰し、トレーニングを毎回行うごとに限界効果は急激に低下します。ワン・リは記事中に埋め込んだインタラクティブなシミュレーターを通じて、工学的な細部の感度を直観的に示しています。僅かな適合精度やノイズレベルの調整でも、外挿予測が十万里も異なることがあります。
