大規模モデルが垂直専門分野に進出する道のりにおいて、
3月21日、

論理推論能力を測定する上位のベンチマークテストにおいて、
記録更新: MiniF2F-Testテストで97.1%という驚異的な成績を達成し、わずか72回の推論試行で可能です。
難題の解決: PutnamBenchタスクで41.5%の問題を成功裏に解決し、この二つのデータはともに世界最高水準(SOTA)を更新しました。
大規模モデルが「数学者」のように厳密になるために、
幻覚の排除: AST(抽象構文木)に基づいた多段階の厳格な検証プロセスを導入し、Lean4形式言語を統合することで、AIが論理推論で「無意味なことを言うこと」を根本的に防ぎました。
トレーニングアルゴリズムの進化: MoEモデルにおける長期的なタスクトレーニングの不安定さという問題に対し、メイクドンは独自開発したHisPOアルゴリズムを導入し、定理の一貫性検出メカニズムと併せて、強化学習の段階で「短期的な利益を得る」ような報酬ハッキング行為を効果的に防止しました。
効率的なアーキテクチャ: 5600億の総パラメータ量により、モデルの深い知識の蓄積が保証され、
現在、
