メイドゥーLongCatが革新的なベンチマークテストUNO-Benchを発表、マルチモーダル大規模言語モデルの評価能力を全面的に向上

最近、メイドゥーのLongCatチームは、さまざまなモードでの理解能力を体系的に評価することを目的とした新たなベンチマーク「UNO-Bench」をリリースしました。このベンチマークは44種類のタスクタイプと5つのモードの組み合わせをカバーしており、モデルの単一モードおよびフルモードの性能を全面的に示すことを目指しています。

UNO-Benchの核となるのは豊富なデータセットです。チームは1250個のフルモードサンプルを丁寧に選定し、これらのサンプルのマルチモーダル解消性は98%に達しています。また、増強された単一モードのサンプルも2480個追加されています。これらのサンプルは現実的なシナリオの応用を十分に考慮しており、特に中国語の文脈では非常に優れた性能を発揮します。また注目すべきは、自動圧縮処理によりこれらのデータセットの実行速度が90%向上し、18の公開ベンチマークテストで98%の一致率を維持していることです。

モデルの複雑な推論能力をよりよく評価するために、UNO-Benchは独自の多ステップオープン形式の質問を導入しました。この形式は汎用的なスコアリングモデルと組み合わされ、6種類の異なる問題形式を自動的に評価し、正確度は驚くほど95%に達しています。この革新的な評価方法は、マルチモーダルモデルの評価に新しい視点を提供するものです。

現在、UNO-Benchは主に中国語のシナリオに焦点を当てています。チームは現在、パートナーを積極的に探しており、英語および多言語バージョンの共同開発を計画しています。興味のある開発者はHugging FaceプラットフォームからUNO-Benchデータセットをダウンロードできます。関連するコードやプロジェクトドキュメントもGitHub上で公開されています。

UNO-Benchのリリースにより、マルチモーダル大規模言語モデルの評価基準はさらに向上します。これは研究者にとって有力なツールを提供し、業界全体の進歩を促進するものです。

プロジェクトのアドレス:https://meituan-longcat.github.io/UNO-Bench/

宇樹ロボットが春節晩会で世界初の特技を披露、空中フリップの高さは3メートルを超えます

2026年の春節晩会において、宇樹の人型ロボットが子供と共に武術「舞 BOT」をパフォーマンスし、複数の運動限界を突破しました。空中フリップの高さは3メートル以上、片足での連続空中フリップ、最高速度4m/sでの移動を実現し、宙返りやつるぎの振りなど高難易度の動きも行い、優れた安定性と柔軟性を示しました。

大晦日インタラクティブ19億！ドゥーボーAIが2026年春節晩会を深く支援し、リアルタイムでの創作記録を樹立

2026年の大晦日、総合テレビの春節晩会は初めてAIを用いた国民によるリアルタイムでの創作インタラクティブを導入し、字節跳動傘下のドゥーボーが核心プラットフォームとなり、AIインタラクティブ数は19憶に達しました。そのうち、「ドゥーボーで年越し」活動によって生成された新春の顔写真は5000万枚以上、お祝いメッセージは1億本以上となりました。AI画像生成と新年の挨拶は春節の新しいトレンドとなりました。インタラクティブの熱狂は大晦日の夜21時46分、春晚のホストが発表した際に最高潮に達しました。

マスクの予言：プログラミングは消える。AIが直接バイナリコードを記述、中間層開発は過去のものになる

マスク氏は、2026年末までにAIが従来のプログラミング言語やソースコードを介さずに、直接効率的なバイナリコードを生成できるようになると予測。要求から実行可能プログラムへのシームレスな移行が実現し、プログラマーという職業が消滅する可能性がある。....

抖音副社長が春晚に初めて国内AI動画生成モデルSeedance2.0を採用すると発表

ドゥイナントウグループは、中国テレビ放送協会の春晚が初めて国内AI動画生成モデルSeedance2.0を深く活用することを発表しました。これは中国のAI動画技術における大きな飛躍を示しています。このモデルはドゥーパオチームによって開発され、すでにドゥーパオの多様なプラットフォームに接続されており、ユーザーはプロンプトを使って迅速にショートビデオを作成できます。

メイドゥーLongCatが革新的なベンチマークテストUNO-Benchを発表、マルチモーダル大規模言語モデルの評価能力を全面的に向上

関連推奨

宇樹ロボットが春節晩会で世界初の特技を披露、空中フリップの高さは3メートルを超えます

大晦日インタラクティブ19億！ドゥーボーAIが2026年春節晩会を深く支援し、リアルタイムでの創作記録を樹立

マスクの予言：プログラミングは消える。AIが直接バイナリコードを記述、中間層開発は過去のものになる

千問 Qwen3.5が大晦日に登場アリババグループが全面的な人工知能アーキテクチャのイノベーションを実施

抖音副社長が春晚に初めて国内AI動画生成モデルSeedance2.0を採用すると発表

メイドゥーLongCatが革新的なベンチマークテストUNO-Benchを発表、マルチモーダル大規模言語モデルの評価能力を全面的に向上

関連推奨

宇樹ロボットが春節晩会で世界初の特技を披露、空中フリップの高さは3メートルを超えます

大晦日インタラクティブ19億！ドゥーボーAIが2026年春節晩会を深く支援し、リアルタイムでの創作記録を樹立

マスクの予言：プログラミングは消える。AIが直接バイナリコードを記述、中間層開発は過去のものになる

千問 Qwen3.5が大晦日に登場 アリババグループが全面的な人工知能アーキテクチャのイノベーションを実施

抖音副社長が春晚に初めて国内AI動画生成モデルSeedance2.0を採用すると発表

千問 Qwen3.5が大晦日に登場アリババグループが全面的な人工知能アーキテクチャのイノベーションを実施