上海人工智能實驗室司南 OpenCompass 團隊與魔搭 ModelScope 最近宣佈,他們的大模型評測平臺 Compass Arena 進行了重要更新,推出了全新的多模態大模型競技版塊 Compass Multi-Modal Arena。這一新版塊爲用戶提供了一個平臺,可以體驗和比較多款主流多模態大模型的效果,幫助用戶找到最適合自己需求的模型。

微信截圖_20240813080725.png

Compass Multi-Modal Arena 的官網和 ModelScope 頁面已向公衆開放,提供了一個簡單易用的界面,用戶可以上傳圖像並輸入問題,系統會安排兩個匿名的多模態大模型根據輸入內容生成答案。用戶基於生成內容的質量進行主觀評估,選擇他們認爲表現更出色的模型。評估完成後,用戶可以看到每個模型的名稱。

微信截圖_20240813080734.png

平臺還內置了特色題庫,方便用戶在不便上傳圖像時使用,題庫側重於主觀視覺問答任務,如迷因理解、藝術品賞析和攝影作品賞析等類型。這一設計旨在評估多模態大模型在主觀任務上的性能和用戶體驗。

Compass Multi-Modal Arena 官網

https://opencompass.org.cn/arena?type=multimodal

ModelScope 頁面:

https://modelscope.cn/studios/opencompass/CompassArena

HuggingFace 頁面

https://huggingface.co/spaces/opencompass/CompassArena

OpenCompass 多模態評測工具開源鏈接:

https://github.com/open-compass/VLMEvalKit