本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。
関連推奨
アリババQwen2-72B、HELMランキングで首位獲得:Llama3-70Bを上回る性能
先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。
Jun 20, 2024
116.1k
テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開
テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。
Nov 16, 2023
85.2k
ChatGPT はユーザーの要望に応じて長いたばね括弧の使用を停止する
OpenAI CEOサム・アルトマンは、ChatGPTのカスタム命令機能で長いダッシュを無効化できるよう発表。設定メニューの個人用オプションでAI応答を調整可能。アルトマンは「小さくも喜ばしい進歩」と称賛。....
Nov 14, 2025
97.4k
テンセントQ3決算はAIエコシステムの新たな機会を明らかにし、企業サービス収入が大幅に増加
騰訊2025年Q3総収入1928.7億元、前年比15%増。ToB事業が582億元で10%成長。AI技術需要がクラウドサービスとWeChatミニショップの成長を牽引。混元大モデルが権威ランキングで首位維持、AI戦略の成果を示す。....
Nov 14, 2025
97.4k
TRAEがSOLOの正式版をリリース:リアルタイム認識+マルチエージェントで次世代プロフェッショナルAIコード作成モードを開く
TRAEはSOLO正式版をリリース。リアクティブプログラミングアシスタントとして、開発者向けにリアルタイム制御・マルチタスク処理を提供。国際版を期間限定無料公開。7月ベータ版のSOLO Builderはマルチモーダル理解とタスク分解でアプリ開発を支援。....
Nov 14, 2025
146.9k
