SuperCLUEは、中国語大規模言語モデル8月のランキングを発表しました。ランキングには、総合ランキング、OPEN多回転開放問題ランキング、OPT三大能力客観問題ランキング、十大基礎能力ランキング、オープンソースランキングが含まれています。評価では、16の汎用大規模言語モデルを選び、3337問の全く新しいテスト問題を使用しました。今回の評価で、中国国内の大規模言語モデルの中国語タスクにおけるGPT3.5との差が縮小傾向にあることが分かりました。
関連推奨
Poeがランキング機能をリリース。AIモデルや人気アプリの受賞度がリアルタイムで更新
PoeプラットフォームがAIモデル・アプリの人気ランキングを日次更新。200以上のテキスト・画像・動画・音声ボットの利用トークン数に基づき、人気AIツールを簡単に選択可能。....
百度、初の中国語大規模言語モデル搭載AIグラスを発表:45gの軽量設計、最大56時間の長時間バッテリー
百度は2024世界大会で、最新のAIハードウェア製品である小度AIグラスを初公開しました。世界初の中国語大規模言語モデルを搭載したAIグラスとして、ウェアラブルデバイス分野における百度の革新的な技術力を示しました。ハードウェア仕様としては、45gという軽量設計を実現し、快適な装着感を確保しています。16MP超広角カメラを搭載し、AI手ぶれ補正アルゴリズムにより、安定した主観視点の撮影が可能です。バッテリー駆動時間は最大56時間と発表されています。
智源研究院、世界初の中国語大規模言語モデル論争プラットフォームFlagEval Debateを発表
北京智源人工知能研究院(BAAI)は最近、世界初の中国語大規模言語モデル論争プラットフォームFlagEval Debateを発表しました。この新しいプラットフォームは、モデル間の論争という競争メカニズムを通じて、大規模言語モデルの能力評価のための新しい測定方法を提供することを目的としています。これは、智源モデル対戦評価サービスFlagEval大規模言語モデル競技場の拡張であり、大規模言語モデル間の能力の違いを識別することを目標としています。
智源研究院、コード生成トレーニングデータセットTACOを発表
智源研究院は、コード生成モデルに、より挑戦的なトレーニングデータと評価基準を提供することを目的とした、TACOというコード生成トレーニングデータセットを発表しました。TACOは、データ規模、品質、評価方法において優れており、大規模なトレーニングセットとテストセット、多様な解答、詳細なラベルが含まれています。実験結果によると、現在普及しているコード生成モデルは、TACO評価においてGPT-4と顕著な違いがあり、この分野には依然として改善の余地があることが示されています。TACOは単なる挑戦的なデータセットではなく、…
智譜AI、中文LLMアラインメント評価基準AlignBenchを発表
智譜AIは、中国語大規模言語モデルのための評価基準AlignBenchを発表しました。AlignBenchは、多角的な視点からモデルと人間の意図との整合度を詳細に評価できます。データセットは、知識応答、文章生成、ロールプレイングなど、8つの主要なカテゴリに分類され、多様なタイプの問題が含まれています。開発者はAlignBenchを使用してモデルを評価し、評価能力の高いスコアモデルを用いてスコアを算出できます。AlignBenchウェブサイトにアクセスして結果を提出することで、Critiqueを使用できます。
