モールスリソースがURPOフレームワークを発表し、大規模モデルトレーニングの新時代を支援 AAAI 2026で称賛

最近、モールス・スレッドのAI研究チームは、国際的な頂級学術会議AAAI2026で最新の研究成果を発表し、URPO（統一報酬とポリシー最適化）という革新フレームワークを提案しました。この技術は、大規模言語モデルのトレーニングプロセスを簡略化し、パフォーマンスのボトルネックを突破することを目的としており、AI分野に新たな技術的アプローチをもたらします。

『URPO:A Unified Reward & Policy Optimization Framework for Large Language Models』というタイトルの論文において、研究チームは従来の「大モデルトレーニング」方法を再構築しました。URPOフレームワークの特徴は、「指示の理解」と「報酬の評価」の2つの役割を一つにまとめ、単一のモデルがトレーニング段階で同時に最適化できる点です。これは、モデルが指示を理解するだけでなく、自分自身でスコアリングができるようになり、トレーニングの効率と効果を向上させます。

URPOフレームワークは、3つの主要な技術において現在の課題を克服しました。第一に、データ形式の統一です。研究チームは、異なる種類のデータ（好みデータ、検証可能な推論データ、オープンエンド指令データ）をGRPOトレーニングに適した統一信号形式に変換することに成功しました。第二に、自己報酬ループにより、モデルは複数の候補回答を生成した後、自分でスコアリングを行い、その結果をGRPOトレーニングの報酬信号として使用することで、効率的な自己改善ループを形成できます。第三に、協調進化メカニズムによって、3種類のデータを混合処理し、モデルの生成能力と評価能力の両方を向上させました。

実験の結果、Qwen2.5-7Bモデルに基づくURPOフレームワークは、独立した報酬モデルに依存する従来のベースラインよりも多くの性能指標で優れています。例えば、AlpacaEval指令追従ランクでは44.84ポイントに達し、総合的推論能力テストの平均点は32.66から35.66に上昇しました。また、RewardBench報酬モデル評価では85.15ポイントを獲得し、専用報酬モデルの83.55ポイントを上回り、URPOの優位性を十分に示しています。

注目すべきは、モールス・スレッドが自社開発の計算カード上でURPOフレームワークの効率的な動作を実現し、主流の強化学習フレームワークVERLとの深く適合させたことです。この突破は、モールス・スレッドが大規模モデルトレーニング分野でのリーダーシップを示すものであり、今後のAI発展への方向性を示しています。

小米の大モデル MiMo のパブリックベータテスト延長ユーザーは2026年まで無料体験が可能！

小米は、自社開発の大規模モデル「MiMo-V2-Flash」のパブリックベータテストの無料期間を20日間延長し、2026年1月20日までに変更した。このモデルのパラメーター数は3090億で、アクティブなパラメーターは150億であり、推論やコード生成において優れた性能を発揮している。この措置はユーザーにさらに長い体験時間を提供することを目的としており、小米がAI分野における継続的な投資と自信を示すためでもある。

快手副社長のโจว・グオルイが退職する予定、今後の道は不明！メタまたはティックトックに加入するか？

快手副社長のジョウ・グオルイが退職すると暴露され、メタまたはティックトックに加入する可能性がある。彼の内部状態は休暇になっていると表示され、メールサインは「Log Out」に変更されている。ジョウ・グオルイは修士号を持ち、技術的な背景が深い。

OpenAIの社員の年収が爆増！1人あたりの株式報酬が150万ドルに達し、テクノロジー業界の新記録を樹立！

OpenAIの報酬データは驚くべきもので、1人あたりの株式報酬が150万ドルに達し、テクノロジースタートアップ企業で最高記録を更新しました。この数字は、過去25年間において他の18の主要テクノロジー企業が上場直前に支払った従業員の報酬の34倍です。2030年までに、同社は毎年約30億ドルの株式報酬を支払う予定です。

2025年度バイドゥ・ワンシンAIプロンプトの発表：仕事

バイドゥ・ワンシンAIが2025年度プロンプト「仕事」を発表しました。昨年のキーワードは「答え」でした。過去1年間、ユーザーはAIを通じて生活や夢などの答えを求め、AIに人間の感情と思考を理解させるきっかけとなりました。2025年には人々はAIに仕事における期待や悩みを打ち明けるようになりました。

モールスリソースがURPOフレームワークを発表し、大規模モデルトレーニングの新時代を支援 AAAI 2026で称賛

関連推奨

小米の大モデル MiMo のパブリックベータテスト延長ユーザーは2026年まで無料体験が可能！

月の暗面が5億ドルのCラウンド資金調達を達成：百億元の現金を保有し、IPOに急ぐことなし AGI世界の頂点を目指す

快手副社長のโจว・グオルイが退職する予定、今後の道は不明！メタまたはティックトックに加入するか？

OpenAIの社員の年収が爆増！1人あたりの株式報酬が150万ドルに達し、テクノロジー業界の新記録を樹立！

2025年度バイドゥ・ワンシンAIプロンプトの発表：仕事

モールスリソースがURPOフレームワークを発表し、大規模モデルトレーニングの新時代を支援 AAAI 2026で称賛

関連推奨

小米の大モデル MiMo のパブリックベータテスト延長 ユーザーは2026年まで無料体験が可能！

月の暗面が5億ドルのCラウンド資金調達を達成：百億元の現金を保有し、IPOに急ぐことなし AGI世界の頂点を目指す

快手副社長のโจว・グオルイが退職する予定、今後の道は不明！メタまたはティックトックに加入するか？

OpenAIの社員の年収が爆増！1人あたりの株式報酬が150万ドルに達し、テクノロジー業界の新記録を樹立！

2025年度バイドゥ・ワンシンAIプロンプトの発表：仕事

小米の大モデル MiMo のパブリックベータテスト延長ユーザーは2026年まで無料体験が可能！