ChatGPTブームに伴い、国内外で様々な大規模言語モデルの評価ランキングが発表されていますが、パラメータ規模が近いモデルでも、ランキング順位に大きな違いが見られます。産業界や学界では、この原因として、評価データセットの違いや、主観的な問題の割合増加による評価の公平性への疑問が挙げられています。そのため、OpenCompassやFlagEvalなどの第三者評価機関が注目を集めています。しかし、業界内では、真に包括的で効果的な大規模言語モデルの評価を行うためには、モデルの堅牢性や安全性などの他の次元も考慮する必要があり、現在も模索段階にあるとされています。
関連推奨
2%のパラメータでGPT-4oを倒せる?アリババ通義千問Qwen 3.5の小さなモデルが爆発的に人気だ!
アリババ通義千問Qwen 3.5シリーズの小さなモデルは、「パラメータ数が知能を決める」という常識を打ち破った。その中でも400億パラメータのQwen 3.5-4Bは、数百億パラメータを持つGPT-4oと比較して、第三者テストで劣るどころかわずかに上回る結果を収めている。これは国内の大規模モデルがローカルデプロイと効率最適化において重要な突破を遂げたことを示しており、「小さな力で大きな勝利を得る」新しい時代を開いた。
智源研究院、JudgeLM 裁判モデルをオープンソース化:様々な大規模言語モデルを評価しスコアを出力
智源研究院は、様々な大規模言語モデルを効率的に評価し、スコアを出力できるJudgeLM裁判モデルをオープンソース化しました。JudgeLMはGPT-4と比較してコストは1/120で、評価結果の一致率は90%以上です。JudgeLMは、純粋なテキスト、マルチモーダルなど様々な評価シーンに適用でき、スコアと根拠を提示します。JudgeLMと正解の一致率は最高90%を超え、人間の評価に近づいています。智源研究院は、更なる研究のために、トレーニングと検証に使用したデータセットも公開しました。
アリババグループ、DevOps分野向けの大規模言語モデル評価基準を発表
アリババグループと北京大学は共同で、DevOps分野向けの大規模言語モデル評価基準を発表しました。この評価基準には、計画、コーディング、ビルド、テスト、リリースなど8つのカテゴリの選択問題4850問が含まれています。また、AIOpsタスクに対する詳細な評価も行われています。評価結果によると、各モデルのスコアに大きな差は見られませんでした。
元バイトダンスAI幹部駱怡航氏、生数科技CEOに就任 AI動画生成の商業化を推進
鳳凰科技の報道によると、駱怡航氏は最近、生数科技のCEOに正式就任し、同社の研究開発、製品、商業化、チーム管理の全般を統括する。清華大学自動化学科博士号を取得した同氏は、クラウドコンピューティングとAI分野で10年以上にわたり従事し、豊富な技術的背景と商業化経験を有する。生数科技入社前は、バイトダンス火山引擎のAIアプリケーション製品ライン責任者を務め、火山引擎社長に直属していた。情報によると、同製品ラインは同氏がゼロから構築し、複数のAI関連製品を網羅し、数百人の規模を管理していた。それ以前は、字…
水面下で支援!グーグル、Anthropicの株式14%保有を公開 総投資額30億ドル超え
先日、アメリカのニューヨーク・タイムズが取得した裁判所の文書によると、サンフランシスコに拠点を置くAIスタートアップAnthropicとグーグルの関係は、これまで考えられていたよりも緊密であることが明らかになりました。文書によると、グーグルは現在Anthropicの株式の14%を保有しており、転換社債契約を通じて今年さらに7億5000万ドルを投資する計画です。これにより、グーグルによるAnthropicへの総投資額は30億ドルを超えます。画像注記:画像はAIによって生成されたもので、画像ライセンスサービスプロバイダーMidjourneyによるものです。
