最近、メイドゥーのLongCatチームは、さまざまなモードでの理解能力を体系的に評価することを目的とした新たなベンチマーク「UNO-Bench」をリリースしました。このベンチマークは44種類のタスクタイプと5つのモードの組み合わせをカバーしており、モデルの単一モードおよびフルモードの性能を全面的に示すことを目指しています。

UNO-Benchの核となるのは豊富なデータセットです。チームは1250個のフルモードサンプルを丁寧に選定し、これらのサンプルのマルチモーダル解消性は98%に達しています。また、増強された単一モードのサンプルも2480個追加されています。これらのサンプルは現実的なシナリオの応用を十分に考慮しており、特に中国語の文脈では非常に優れた性能を発揮します。また注目すべきは、自動圧縮処理によりこれらのデータセットの実行速度が90%向上し、18の公開ベンチマークテストで98%の一致率を維持していることです。

image.png

モデルの複雑な推論能力をよりよく評価するために、UNO-Benchは独自の多ステップオープン形式の質問を導入しました。この形式は汎用的なスコアリングモデルと組み合わされ、6種類の異なる問題形式を自動的に評価し、正確度は驚くほど95%に達しています。この革新的な評価方法は、マルチモーダルモデルの評価に新しい視点を提供するものです。

image.png

現在、UNO-Benchは主に中国語のシナリオに焦点を当てています。チームは現在、パートナーを積極的に探しており、英語および多言語バージョンの共同開発を計画しています。興味のある開発者はHugging FaceプラットフォームからUNO-Benchデータセットをダウンロードできます。関連するコードやプロジェクトドキュメントもGitHub上で公開されています。

UNO-Benchのリリースにより、マルチモーダル大規模言語モデルの評価基準はさらに向上します。これは研究者にとって有力なツールを提供し、業界全体の進歩を促進するものです。

プロジェクトのアドレス:https://meituan-longcat.github.io/UNO-Bench/