2022年、ChatGPTが世界を席巻したとき、OpenAIの内部には「MathGen」という小さなチームが、より基本的な研究に取り組んでいた。それはAIモデルに数学的推論を教えることだった。今や、この作業はOpenAIがAIエージェント(Agent)を開発するための核心技術となっており、シリコンバレーでは人材争奪戦が勃発している。本記事では、OpenAIがAIエージェントの道をどのように歩んできたのかを深く掘り下げ、強化学習と計算上の突破がどうして、一見地味な研究プロジェクトから汎用エージェントの壮大なビジョンへと導いたのかを探る。
2022年、ChatGPTがその強力な言語能力で急速に注目を集め、史上最も早く成長した製品の一つとなった頃、研究者であるハンター・ライトマン(Hunter Lightman)は、まったく別のタスクに専念していた。それは、「MathGen」というチームを率いて、OpenAIのモデルに高校数学オリンピックの問題を解かせるということだった。

当時のOpenAIのモデルは数学的推論においては不十分だった。しかし、これは基礎研究として見られていたプロジェクトが、後に会社にとって大きな飛躍の基盤となったのである。今では、このチームの成果は業界をリードするAI推論モデルとなり、AIエージェントの背後にある核心技术となっている。
OpenAIのCEOであるサム・オルトマン(Sam Altman)は、2023年の初開催された会社の開発者カンファレンスで、壮大なビジョンを語った。「最終的には、あなたがコンピュータに要求を出すだけで、すべてのタスクを完了してくれるだろう。」彼が指したのは、コンピュータ上で複雑なタスクを人間のように遂行できるAIシステムである。
強化学習の復活:AlphaGoからo1モデルへ
OpenAIのAIエージェントの道は、強化学習(RL)というトレーニング技術と密接に関係している。RLは、2016年にグーグルのDeepMindがアルファゴで世界の囲碁チャンピオンを倒したときに有名になったが、OpenAIの進展はLLM(大規模言語モデル)とその組み合わせにあった。
OpenAIの初期のGPTシリーズモデルは、テキスト処理には長けていたが、基礎的な数学では苦戦していた。それが2023年に、「Strawberry」というコードネームの突破を達成した。この技術はLLM、強化学習および「テスト時間計算」技術を組み合わせており、後者はモデルに追加の時間と計算能力を提供し、計画立案、検証、問題解決を行うことができた。この突破により、OpenAIは「思考プロセス」(CoT)メソッドを導入でき、未知の数学的問題を解決する際の性能を著しく向上させた。
研究者のエル・キシュキー(El Kishky)は次のように述べている。「モデルが推理し始めているのが見える。間違いに気づき、それを戻って修正する。そして不安になることもある。まるで誰かの考えを読んでいるような感じだ。」
この技術の組み合わせにより、OpenAIの推論モデルo1が生まれた。o1の計画性と事実確認能力は、強力なAIエージェントの構築に不可欠な基盤となった。ライトマンは、「o1の登場は数年来の悩みを解決してくれた」と語り、「研究者人生で最も興奮した瞬間の一つ」と語った。
o1の価値と人材争奪戦
2024年の秋、OpenAIはo1モデルを公開し、世界を驚かせた。この進展は、新しいトレーニング方法によってモデルのパフォーマンスをさらに向上させることができることを示した。それからわずか一年以内に、o1を開発した21人の研究者たちは、シリコンバレーで最も求められる人材となった。
マーク・ザッカーバーグ(Mark Zuckerberg)は、1億ドル以上の報酬で、5人のo1研究者をメタが新設したスーパーアイ部門に引き抜いた。その中には、研究室の首席科学者に任命されたチョウ・シェンジア(Zhao Shengjia)も含まれている。この動きは、現在の技術競争におけるAI推論モデルの戦略的重要性を示している。
AIエージェントの未来:プログラミングから主観的タスクへ
OpenAIのモデルが国際数学オリンピックで金メダルを獲得したにもかかわらず、最新のAIシステムでも誤解が生じたり、複雑なタスクを遂行する際に困難を抱えている。
現在市場に出回っているAIエージェント、例えばOpenAIのCodexは、プログラミングなどの明確で検証可能な分野では最適だが、買い物や駐車場を探すなど複雑で主観的なタスクに対しては依然として難航している。
OpenAIの研究者ノーム・ブラウン(Noam Brown)は、これらの検証が難しいタスクに対応するために、新たな汎用的強化学習技術を探索していると語っている。こうしたアプローチにより、OpenAIは数学オリンピックで金メダルを獲得したモデルを構築した。このモデルは複数の「エージェント」を生成し、複数のアイデアを同時に探求し、最終的に最適な答えを選出することができる。グーグルやxAIなどの企業もすでに同様の技術を採用している。
OpenAIは、今後リリース予定のGPT-5などで、AI分野でのリーダーシップをさらに強化したいと考えている。エル・キシュキーは、「OpenAIの最終的な目標は、ユーザーの意図を直感的に理解し、煩雑な設定なしに動かすことができるAIエージェントを作ること」と語っている。
OpenAIが数年前に人工知能業界をリードしたことは確かだが、現在ではグーグル、Anthropic、xAI、メタといったライバルたちも次々と追い上げてきており、問題はOpenAIがそのエージェントの未来を実現できるかどうかではなく、どの競合よりも先にそれを成し遂げることができるかに移っている。
