「百模競争」すべてが第一位、大規模モデルの「ベンチマーク」不正はどこまで続くのか？

本稿では、現在の巨大言語モデル評価システムにおける「スコア競争の乱れ」を分析し、大規模言語モデルのランキングに「どこも第一位」という状況が広く存在することを指摘しています。公開されているベンチマークデータセットは「カンニング」行為を招きやすく、一方、閉鎖的なプライベートデータセットは公平性に影響を与えます。さらに、一部のランキングでは評価基準が科学的で包括的でないという問題もあります。本稿では、権威ある評価システムの構築、公平性を確保するための評価ツールとプロセスのオープンソース化を提案していますが、評価データセットについては、公開された履歴データと閉鎖的な正式データの両方を組み合わせる方法を推奨しています。さらに、大規模言語モデルの商業化は、モデルのパラメータ数やランキングよりもはるかに重要であると述べています。

ZTEとテンセントが戦略的協力関係を締結、AIクラウドパソコンにネイティブなWork Buddyを搭載

中興通訊とテンセントが戦略的提携を結び、テンセントのAIアシスタント「Work Buddy」を搭載したAIクラウドPCを発表。この「ソフト・ハード一体化」の連携が市場に好感され、6月4日には中興通訊のAH株が急騰、A株は5%超、H株は最高8%近く上昇した。AIアプリケーションエコシステムの拡大に期待が集まる。....

中国移動がMoMAプラットフォームを発表：AIによる水・電気・ガス時代を開く。トークンコストの30％削減

2026年、中国移動はモバイルクラウドカンファレンスで「MoMA」モデルサービスプラットフォームを発表。大規模モデルを実験室から各産業へ普及させ、AIを水道・電気のように手軽に利用可能にする。統一APIゲートウェイにより、自社「九天」基盤モデルを含む300以上の主流モデルを一度の接続で呼び出し、「すぐに使える」環境を実現する。これがプラットフォームの核心的強みである。....

話題沸騰のDeepSeek-V4の裏で：北京大学が公開したOne-EvalはAI評価の悪夢をどう終わらせたのか？

DeepSeek-V4が公開されてから10時間も経たないうちに、北京大学DCAIチームは最新のオープンソースOne-Eval評価フレームワークを使って、迅速に完全な自動化された評価レポートを作成しました。従来の大規模モデルの評価プロセスは煩雑で、テストパイプラインの構築に多くの労力を要していましたが、One-Evalは効率を大幅に向上させ、業界の新たな段階を示しています。

アリババ・テンユンチエンアプリが四大衛星テレビ春晚を独占広告、AIスマートエージェントが芸術の舞台に初登場

アリババ・テンユンチエンアプリは「春節ごちそう計画」に30億元を投じた後、東方衛星テレビ、浙江衛星テレビ、江蘇衛星テレビおよび河南省衛星テレビの四大マウス年の春晚の独占広告権を獲得した。以前とは異なり、テンユンチエンは番組コンテンツ制作に深く関わる予定で、「AI俳優」としてパフォーマンスに溶け込み、AI映像生成、画像認識およびリアルタイム質問応答などの先端技術を活用し、視聴者にテクノロジー感覚満載の春晚体験を提供する。

「百模競争」すべてが第一位、大規模モデルの「ベンチマーク」不正はどこまで続くのか？

関連推奨

ZTEとテンセントが戦略的協力関係を締結、AIクラウドパソコンにネイティブなWork Buddyを搭載

中国移動がMoMAプラットフォームを発表：AIによる水・電気・ガス時代を開く。トークンコストの30％削減

話題沸騰のDeepSeek-V4の裏で：北京大学が公開したOne-EvalはAI評価の悪夢をどう終わらせたのか？

バイチューティアが先端技術人材の採用を開始グローバルな博士課程生向けに複数のAI分野を開放

アリババ・テンユンチエンアプリが四大衛星テレビ春晚を独占広告、AIスマートエージェントが芸術の舞台に初登場

「百模競争」すべてが第一位、大規模モデルの「ベンチマーク」不正はどこまで続くのか？

関連推奨

ZTEとテンセントが戦略的協力関係を締結、AIクラウドパソコンにネイティブなWork Buddyを搭載

中国移動がMoMAプラットフォームを発表：AIによる水・電気・ガス時代を開く。トークンコストの30％削減

話題沸騰のDeepSeek-V4の裏で：北京大学が公開したOne-EvalはAI評価の悪夢をどう終わらせたのか？

バイチューティアが先端技術人材の採用を開始 グローバルな博士課程生向けに複数のAI分野を開放

​アリババ・テンユンチエンアプリが四大衛星テレビ春晚を独占広告、AIスマートエージェントが芸術の舞台に初登場

バイチューティアが先端技術人材の採用を開始グローバルな博士課程生向けに複数のAI分野を開放

アリババ・テンユンチエンアプリが四大衛星テレビ春晚を独占広告、AIスマートエージェントが芸術の舞台に初登場