正文

大模型评测乱象调查:参数规模不代表一切

发布于AI新闻资讯

发布时间 :2023年9月25号 9:54

阅读 :1分钟

随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。

爆火的DeepSeek-V4 背后：北大开源框架One-Eval如何终结AI测评“噩梦”？

DeepSeek-V4发布仅10小时，北京大学DCAI团队便通过最新开源的One-Eval评测框架，快速生成全量自动化评测报告。传统大模型评测流程繁琐，需耗费大量精力在搭建测试管道上，而One-Eval显著提升了效率，标志着行业进入新阶段。

2026年4月28号 10:30

193.9k

只需2%参数就能“干翻”GPT-4o？阿里通义千问Qwen 3. 5 小模型杀疯了！

阿里通义千问Qwen 3.5系列小模型打破“参数量决定智商”的常规认知。其中仅40亿参数的Qwen 3.5-4B在第三方测试中，与参数量过千亿的GPT-4o同台竞技，表现不落下风甚至略胜一筹。这标志着国产大模型在本地部署和效率优化上取得重要突破，开启“以小博大”的新时代。

2026年3月9号 9:46

240.7k

“百模大战”家家第一,大模型“跑分”作弊何时休?

["📊 大模型的评测体系:当前的大模型评测体系存在开源数据集可刷题、封闭评测数据集引发公平性问题以及评测指标不够科学全面等问题。","💡 大模型的应用趋势:文章提到大模型已经从模型端发展到应用端创新。","🔎 大模型的商业化问题:对大模型团队来说,是否能实现商业化远比排名和参数更重要。"]

2023年11月29号 9:08

174.2k

蚂蚁集团发布面向 DevOps 领域的大模型评测基准

["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]

2023年11月2号 15:21

164.8k

NVIDIA 携手国际组织，以AI技术助力全球野生动物保护

在全球生态环境保护日益受到重视的背景下，NVIDIA 与多个国际组织合作，积极探索人工智能在野生动物保护中的应用。根据联合国的数据显示，超过100万种物种面临灭绝的风险，而利用 AI 技术的保护措施，无疑为维持生态系统和支持生物多样性提供了新的解决方案。美国西雅图的非营利性 AI 研究机构 Ai2推出了 EarthRanger 软件平台，旨在帮助保护区的管理人员和生态学家做出更明智的野生动物保护决策。该平台的核心是一个基于机器学习的模型，能够通过云端的 NVIDIA Hopper GPU 进行训练，准

2025年3月13号 9:33

200.4k

智启未来，您的人工智能解决方案智库