10月14日午前、アリババグループはトレーニングモデル「リング-1T」を正式にリリースし、モデルの重みやトレーニングの手順をすべてオープンソース化しました。リング-1Tは9月30日に公開したプレビュー版「リング-1T-preview」をもとに、大規模な検証可能な強化学習(RLVR)トレーニングを継続的に拡張し、トレーニング中の自然言語推論能力をさらに高めました。また、RLHFトレーニングによりモデルの汎用性を向上させ、さまざまなタスクでよりバランスの取れた結果を示しています。
リング-1Tの数学などの複雑な推論能力をさらに高めるために、今回の百靈チームは難易度の高いIMO2025(国際数学オリンピック)問題に挑戦しました。リング-1TをマルチエージェントフレームワークAWorldに接続し、純粋な自然言語推論で問題を解く試みを行いました。実験結果によると、リング-1Tは1回の試行で第1問、第3問、第4問、第5問を解き、銀メダルレベルの結果を達成しました。これはオープンソースシステムとして初めてIMO国際数学オリンピックの賞を受けることになりました。リング-1Tは3回目のIMO挑戦で第2問の幾何証明にも満点に近い証明プロセスを提示し、トップクラスの大規模モデルがほぼ全滅した第6問では、答えがGemini2.5Proと同様の「4048」と収束しました(正解は2112)。思考モデルとしてのリング-1Tは、汎用性も非常に高く、「人間の好みの調整」テストArena-Hard V2において、リング-1Tは81.59%の成功率でオープンソースモデルの首位となり、GPT-5-Thinking(High)の82.91%に迫りました。医療質問応答テストHealthBenchでは、リング-1Tは最高点を記録し、オープンソース分野での最良の結果を達成しました。

(リング-1Tと業界の代表的な思考モデルとの性能比較)
トレーニング最大の課題は、トレーニングと推論の精度の違いです。つまり、トレーニング段階と推論段階の実装の細部の違いにより、トレーニングと推論の精度が一致しなくなり、結果としてトレーニングが崩壊することがあります。リング-1Tモデルでは、アリババは独自開発した「アイスポップ(icepop)」アルゴリズムを使用してこの業界の課題に対処しました。これにより、トレーニング-推論分布の差を低水準に保ち、長期間のトレーニングでも安定性を確保することができました。また、トレーニングにおける強化学習の実装には、高性能な強化学習システムASystem(すでにオープンソース化されている高性能な強化学習フレームワークAReaLを含む)を独自開発し、特にトレーニング中に使用されるメモリ管理やトレーニング-推論の重み交換について細かく最適化しました。これにより、単一マシンのメモリ断片を秒単位で回収し、重みの冗長なしで交換できるようになりました。これにより、大規模なRLトレーニングが日常的に安定して実行できるようになりました。

(図左:GRPOのトレーニング-推論差はトレーニングと共に指数的に増加しますが、icepopは比較的安定しています。図右:トレーニング-推論差の最大値、GRPOはトレーニングとともに顕著に上昇しますが、icepopは低い水準を維持しています。)
また、今回のリング-1Tモデルは、Ling2.0アーキテクチャの1Tベースモデルを後トレーニングに使用し続けます。Ling2.0は、高密度のMoEアーキテクチャ、1/32のエキスパートアクティベーション比、FP8ハイブリッド精度、MTPなど多くの特徴を持つことで、効率的なトレーニングと推論を実現しています。後トレーニング段階では、アリババの百靈チームはLongCoT-SFT + RLVR + RLHFの多段階トレーニングを通じて、モデルの複雑な推論能力および指示追従やクリエイティブなライティングなどの汎用性を大幅に向上させました。
百靈チームによると、リング-1Tモデルはアリババが万亿パラメータの思考モデルとしての初の試みであり、今後のバージョンでモデルの性能をさらに改善していく予定です。現在、ユーザーはHuggingFaceや魔搭コミュニティからモデルをダウンロードでき、アリババの百宝箱などのプラットフォームでオンライン体験も可能です。

了解によると、現在までにアリババの百靈大規模モデルは18種類のモデルをリリースしており、160億総パラメータから1兆総パラメータまでの大規模言語モデル製品マトリクスを形成しています。その中には、1兆パラメータの汎用的大規模言語モデル「Ling-1T」と1兆パラメータの思考モデル「リング-1T」の2つのモデルがあります。この2つの1兆パラメータモデルのリリースにより、百靈大規模モデルは正式に2.0フェーズに入りました。
