アリババ・ブライトモデルチームはこのほど、最新の高性能思考モデルであるRing-flash-2.0を正式にオープンソース化したことを発表しました。このモデルはLing-flash-2.0-baseをもとに深く最適化されており、人工知能分野における大きな進歩を示しています。Ring-flash-2.0の総パラメータ数は100億ですが、1回の推論時に61億のみがアクティブ化されるこの効率的なアクティベーションメカニズムにより、モデルは強力な計算能力を提供しながらも、多くのリソースを節約することができます。

チームの説明によると、Ring-flash-2.0は数学コンテスト、コード生成、論理的推論など、いくつかの高難度のベンチマークテストで優れた性能を発揮しています。その性能は40億パラメータの同種モデルを上回るだけでなく、より大規模なオープンソースのスパースモデル(MoE)や一部の非公開の高性能思考モデルAPIと比べても劣らず、その優れた競争力を示しています。

image.png

Ring-flash-2.0のモデル能力を全面的に向上させるために、アリババ・ブライトチームは革新的な二段階の強化学習(RL)トレーニングプロセスを開発しました。まず、軽量なLong-CoT(長系列チェーンオブThought)SFT(監督付きファインチューニング)を通じて、Ling-flash-2.0-baseモデルが多様な思考方法を習得できるようにします。次に、検証可能な報酬を持つRLVR(強化学習検証可能報酬)トレーニングを使用し、モデルの推論能力を継続的に引き出します。最後に、強化学習人間フィードバック(RLHF)フェーズを追加し、モデルの汎用性を高めます。

image.png

注目すべき点は、Ring-flash-2.0のモデルウェイト、強化学習トレーニングプラン、およびデータレシピが完全にオープンソースとなることです。これは、開発者や研究者にとって貴重なリソースとなります。興味のあるユーザーはHugging FaceやModelScopeで関連資料を入手でき、この強力なモデルの探索を始めることができます。

image.png

AI技術の継続的な発展に伴い、Ring-flash-2.0は今後のスマートアプリケーションにおいて新たな可能性を開拓するものと期待されます。さまざまな分野での広範な応用とさらなる突破を期待しています!

モデルのアドレス:

https://huggingface.co/inclusionAI/Ring-flash-2.0

https://modelscope.cn/models/inclusionAI/Ring-flash-2.0