ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。
関連推奨
智源研究院、JudgeLM 裁判モデルをオープンソース化:様々な大規模言語モデルを評価しスコアを出力
智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90%以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90%を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。
アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表
アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。
論文読破の悪夢は終わり!AIツール登場:arXiv論文がブログに早変わり、研究効率が飛躍的に向上!
arXiv論文を簡単にブログ記事に変換できるAIツールが登場しました。複雑な論文を分かりやすく解説し、研究効率を劇的に向上させます。
AIによるわいせつ小説作成で男に懲役10ヶ月、違法利益2万元超
湖北省大冶市人民法院は最近、人工知能(AI)技術を用いてわいせつ小説を作成し、利益を得た初の事例について判決を下しました。被告の柯某は、わいせつ物品の製造・販売・頒布による利益獲得罪で懲役10ヶ月、罰金5000元、違法所得の返還を言い渡されました。検察の主張によると、柯某は2022年11月から2023年3月までの間、専門学校卒のネット小説家として、AIプログラムを用いてわいせつ小説を作成し、海外のわいせつサイトに掲載して販売していました。
AIが不動産市場を牽引、2030年には1803.45億ドル規模に達すると予測
不動産市場における人工知能(AI)の活用が急速に拡大しており、2030年には1803.45億ドル規模に達し、年平均成長率は35%に上ると予測されています。この市場の急速な成長は、機械学習や予測分析などの技術の進歩、そして不動産管理における自動化への需要の高まりによるものです。この市場における主要なプレーヤーには、Zillowグループ、Compass、Redfin、Reonomyなどが含まれ、AIを活用したツールによって顧客体験を向上させています。
