本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。
関連推奨
アリババQwen2-72B、HELMランキングで首位獲得:Llama3-70Bを上回る性能
先日、スタンフォード大学の巨大言語モデル評価ランキングHELM MMLUが最新のランキングを発表しました。スタンフォード大学基礎モデル研究センター長のPercy Liang氏は、アリババの通義千問Qwen2-72BモデルがLlama3-70Bを上回り、最高の性能を持つオープンソースの大規模言語モデルとなったと発表しました。
テンセント、自社開発基盤モデル「混元」をアップグレードし社内製品に展開
テンセントは広告AIモデルのパラメータを拡張し、ターゲティングとアトリビューションの精度を向上させました。テンセントは自社開発基盤モデルである「混元」をアップグレードし、社内製品に展開しています。テンセントクラウドはMaaS能力を向上させ、複数の製品で大規模モデルを活用しています。混元は広告、ゲーム、コンテンツなどの分野で役割を果たしています。テンセントクラウドは大規模モデルの各業界への応用展開を推進しています。
小米の大モデル MiMo のパブリックベータテスト延長 ユーザーは2026年まで無料体験が可能!
小米は、自社開発の大規模モデル「MiMo-V2-Flash」のパブリックベータテストの無料期間を20日間延長し、2026年1月20日までに変更した。このモデルのパラメーター数は3090億で、アクティブなパラメーターは150億であり、推論やコード生成において優れた性能を発揮している。この措置はユーザーにさらに長い体験時間を提供することを目的としており、小米がAI分野における継続的な投資と自信を示すためでもある。
インドのデータセンターが急速に発展しているが、実施は遅れている
インドのデータセンター業界は急速に成長しているが、政策の遅れや電力制約、人材不足などの課題に直面している。....
MiniMaxがM2.1プログラミングモデルを発表、AI開発の新時代が始まる!
MiniMaxはM2.1プログラミングモデルをオープンソースでリリースしました。このモデルはHugging Face、ModelScope、GitHubで利用可能となっており、開発者が簡単に導入できます。このモデルはvLLMDay-0のサポートを受け、効率的な推論を即座に実現でき、KTransformers技術によってパフォーマンスが最適化されています。
