本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。
関連推奨
アリババQwen2-72B、HELMランキングで首位獲得:Llama3-70Bを上回る性能
先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。
Jun 20, 2024
144.1k
テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開
テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。
Nov 16, 2023
107.6k
Anthropicのインド進出:元マイクロソフト社長が率いる シンガポールがAI拡大の新たな先駆け
米AI企業Anthropicが元マイクロソフト幹部のIrina Ghoseをインド担当責任者に任命し、バンガロールにオフィスを開設。インドは同社AI「Claude」の第2位市場であり、商業化を加速させる狙い。....
Jan 19, 2026
87.9k
2025年胡ルク中国AIトップ50社発表 カンブリア紀が630億円で首位を独占
胡潤研究院が『2025年中国AI企業トップ50』を発表。寒武紀が6300億元で首位に立ち、前年比1.6倍増。AIチップ企業が上位10社中7社を占め、大規模AIモデル時代における計算インフラの重要性を浮き彫りにした。....
Jan 19, 2026
76.8k
京东京造AIおもちゃが全年齢層をカバー!ラオラオインコで高齢者が演劇を聴き、ボールボールモーゴーで職場のストレスを解消 AIパートナーが家庭の必須品へ
京東京造は第二弾の自社開発AI玩具を発表し、子供から高齢者まで全世代をカバー。AIの癒し効果を家族全体の必需品に拡大。方言を話すオウムや感情認識デバイスなど、家庭に優しく溶け込む製品で、各世代の情感ニーズに応える。....
Jan 19, 2026
99.2k
