ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。
関連推奨
智源研究院、JudgeLM 裁判モデルをオープンソース化:様々な大規模言語モデルを評価しスコアを出力
智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90%以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90%を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。
アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表
アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。
マレーシアのMaxisとファーウェイ、AIとML技術によるスマートネットワーク運用推進で協業
マレーシアの通信会社Maxisとファーウェイ・テクノロジー(マレーシア)有限公司は、人工知能(AI)と機械学習(ML)技術を活用したネットワーク運用の高度化を目指し、戦略的パートナーシップを締結したと発表しました。この協業は、Maxisのデジタルトランスフォーメーションを加速させるだけでなく、インテリジェントな自己最適化ネットワーク技術を通じて、ユーザーエクスペリエンスと運用効率の向上を目指しています。Maxisの発表によると、今回の協業は包括的な共同プロジェクトを含み、AIとML技術を深く統合することを目指しています。
シリコンベースの流動性:DeepSeek-R1&V3 APIアップグレード バッチ推論とR1価格75%割引に対応
シリコンベースの流動性SiliconCloudプラットフォームのDeepSeek-R1&V3 APIが、本日よりバッチ推論(Batch Inference)に対応しました。ユーザーはSiliconCloudにバッチAPIリクエストを送信することで、リアルタイム推論速度の制限を受けずに、24時間以内にタスク完了が可能です。リアルタイム推論と比較して、DeepSeek-V3のバッチ推論価格は50%割引となり、3月11日から3月18日まではDeepSeek-R1の価格が75%割引となります。
シリコンクラウド、DeepSeek-R1&V3 APIのバッチ推論をサポート、価格を75%値下げ
シリコンクラウド(SiliconCloud)プラットフォームは、本日よりDeepSeek-R1&V3 APIのバッチ推論(Batch Inference)機能を正式に提供開始します。ユーザーはバッチAPIを使用してSiliconCloudにリクエストを送信し、リアルタイム推論速度の制限から解放され、最大24時間以内に大規模データ処理タスクを完了できます。今回のアップデートの大きな特徴は、価格の大幅な引き下げです。DeepSeek-V3のバッチ推論価格はリアルタイムと比べて
