文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关推荐
中兴通讯与腾讯达成战略合作,AI云电脑将搭载原生Work Buddy
中兴通讯与腾讯达成深度战略合作,将推出搭载腾讯原生AI助手Work Buddy的AI云电脑产品。这一“软硬一体化”融合消息引发资本市场强烈反应,6月4日中兴通讯AH股双双大涨,A股涨超5%,H股最高涨近8%,市场对双方联合拓展AI应用生态信心十足。
2026年6月4号 11:11
221.9k
中国移动发布MoMA平台:开启AI“水电煤”时代,Token成本降幅达30%
2026移动云大会上,中国移动发布MoMA模型服务平台,推动大模型从实验室走向千行百业,实现AI“随处可用”。平台核心优势是聚合能力,通过统一API网关,用户一次接入即可调用包括自研“九天”基座大模型在内的300余款主流模型,实现“拎包入住”。
2026年5月11号 9:58
192.1k
爆火的DeepSeek-V4 背后:北大开源框架One-Eval如何终结AI测评“噩梦”?
DeepSeek-V4发布仅10小时,北京大学DCAI团队便通过最新开源的One-Eval评测框架,快速生成全量自动化评测报告。传统大模型评测流程繁琐,需耗费大量精力在搭建测试管道上,而One-Eval显著提升了效率,标志着行业进入新阶段。
2026年4月28号 10:30
195.8k
字节跳动启动前沿技术人才校招,面向全球博士生开放多个AI方向
字节跳动启动校园招聘,面向全球博士生开放全职与实习岗位,优先考虑有顶会论文、专利、竞赛获奖或重大项目经历的技术人才。
2026年4月17号 14:24
433.0k
阿里通义千问 App 独家冠名四大卫视春晚,AI 智能体首登艺术舞台
阿里通义千问App继投入30亿元启动“春节请客计划”后,再获东方卫视、浙江卫视、江苏卫视及河南卫视四大马年春晚独家冠名权。与以往不同,通义千问将深度参与节目内容创作,作为“AI演员”融入表演,利用AI视频生成、图像识别和实时问答等尖端技术,为观众呈现科技感十足的春晚体验。
2026年2月3号 11:35
192.0k
