元OpenAIの首席技術責任者であるMira Muratiが設立したThinking Machines Labは、近日、AI業界で長年問題とされてきたモデル出力の不確実性問題を解決する重要な技術的進展を発表しました。この研究室は最新の研究報告書で、大規模言語モデルの推論プロセスにおける完全な決定的な出力を実現したことを発表しました。

「LLM推論において不確実性に勝つ」というタイトルのこの研究報告書では、温度パラメータを0に設定しても、従来の大規模言語モデルは同じ入力に対して異なる出力を生成することがあることが指摘されています。研究チームは深く分析し、この現象の根本原因を突き止め、効果的な解決策を提案しました。

研究チームは2つの主要な技術的原因を特定しました。1つ目は浮動小数点加算の結合性の欠如です。GPU並列計算環境では、(a + b) + cとa + (b + c)の計算結果がわずかに異なっている場合があります。これらの違いは複雑なニューラルネットワークの中で層ごとに拡大されます。

image.png

より重要な発見は、並列計算戦略の変化が出力の不確実性の根本原因であるということでした。異なるバッチサイズやシーケンス長、KVキャッシュ状態がGPUカーネルの選択戦略に影響を与え、計算の実行順序を変更することで、最終的に出力結果の差異を生じさせます。

この技術的課題に対し、Thinking Machines Labはバッチに依存しない解決策を提案しました。この解決策では、すべての重要な計算カーネルが異なるバッチサイズやシーケンス分割を処理する際でも、同じ計算順序と結果を保証します。研究チームはRMSNorm、行列乗算、アテンション機構などの具体的な計算モジュールについて詳細な最適化方法を提供しています。

技術方案の有効性を検証するために、研究チームは2350億パラメータを持つQwen3-235B-A22B-Instruct-2507モデルを使用して実験を行いました。1000回の繰り返しテストの結果、このモデルは同じ入力条件下で100%の出力の一貫性を達成しました。これは大規模言語モデルの発展史上初めてのことです。

image.png

業界の専門家は、この技術的進展が企業向けAIアプリケーションにとって非常に重要であると考えています。金融リスク管理、医療診断、法務文書のレビューなど、正確性および一貫性が求められる応用分野はこの技術の進歩によって直接恩恵を受けます。

Thinking Machines Labは今回、オープン研究の形で研究成果を公開し、グローバルなAI開発者に新しい技術的参考方向を提供しました。この研究はモデル出力の予測可能性の問題を解決しただけでなく、AIシステムが実験ツールから生産ツールへの転換を可能にする技術的基盤を提供しました。

知られている通り、Thinking Machines Labは2023年に設立され、AIの基礎技術研究に焦点を当てています。この研究室はこれまでに20億ドルのシードファンド調達を成功させ、今後数か月内で最初の製品をリリースする予定です。

この技術的進展は、AI業界がモデルの規模を追求する段階から、応用品質を追求する段階へと移行していることを示しています。確定的な出力技術が広く導入されることで、AIシステムの信頼性と実用性は大幅に向上することが期待されます。

公式研究報告書:https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/