随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。
相关推荐
“百模大战”家家第一,大模型“跑分”作弊何时休?
["📊 <b>大模型的评测体系</b>:当前的大模型评测体系存在开源数据集可刷题、封闭评测数据集引发公平性问题以及评测指标不够科学全面等问题。","💡 <b>大模型的应用趋势</b>:文章提到大模型已经从模型端发展到应用端创新。","🔎 <b>大模型的商业化问题</b>:对大模型团队来说,是否能实现商业化远比排名和参数更重要。"]
蚂蚁集团发布面向 DevOps 领域的大模型评测基准
["蚂蚁集团联合北京大学发布面向 DevOps 领域的大语言模型评测基准","评测基准包含计划、编码、构建、测试、发布等 8 个类别的选择题","共计 4850 道题目","基准还针对 AIOps 任务做了细分","评测结果显示各模型得分相差不大"]
阿里通义实验室语音团队负责人鄢志杰离职
据tech星球消息,阿里通义实验室语音团队负责人鄢志杰已于 2 月 15 日正式离职,其职级为阿里原P序列体系中的P10 级别。鄢志杰是智能语音领域专家, 2003 年进入中科大语音实验室攻读博士,师从科大讯飞创始人王仁华教授。 2008 年获博士学位后,他在微软亚洲研究院语音组担任主管研究员至 2015 年,主要研究语音识别、语音合成等领域。学术上,他发表多篇顶级论文,拥有多项专利。图源备注:图片由AI生成,图片授权服务商Midjourney2015 年加入阿里巴巴后,鄢志杰曾担任IDST智能语音交互
论文阅读噩梦终结!AI神器横空出世: arXiv论文一键变博客,科研效率火箭式飙升!
你是否还在论文的海洋里苦苦挣扎?面对学术网站 arXiv 上堆积如山的论文,是不是也感到头皮发麻,无从下手? 那些晦涩难懂的术语,曲折冗长的段落,复杂烧脑的图表,简直像一道道 impenetrable 的高墙,将求知的心牢牢阻隔在外。 对于科研爱好者、莘莘学子,甚至是专业人士来说,啃下一篇论文,往往需要耗费数小时的精力,甚至要查阅海量资料才能勉强摸到门道,这效率,简直让人抓狂!但!是! 所有挣扎,都将成为过去式! 一款横空出世的AI神器—— alphaXiv,要来彻底拯救你于论文苦海!
一男子因利用 AI 撰写色情小说被判刑十个月,非法获利超两万元
近期,湖北省大冶市人民法院对一起首例利用人工智能(AI)技术撰写色情小说并进行牟利的案件作出判决。被告人柯某因制作、贩卖、传播淫秽物品牟利罪,被判处有期徒刑十个月,并处罚金人民币五千元,退还违法所得。根据公诉机关的指控,柯某在2022年11月至2023年3月期间,作为一名大专文化的网络文学作者,利用 AI 程序撰写色情小说,并通过在境外黄色网站上发布,同时在其他网站进行销售。在短短五个月的时间内,柯某发布了数十篇色情小说,非法获利超过两万元。检方送检的
