SuperCLUE 发布了中文大模型 8 月榜单,其中包括总排行榜、OPEN 多轮开放问题排行榜、OPT 三大能力客观题排行榜、十大基础能力排行榜和开源排行榜。评测选取了 16 个通用大语言模型,并使用了 3337 道全新的测试题。此次评测发现,国内大模型在中文任务上的表现与 GPT3.5 的差距在持续缩小。
相关推荐
百度发布首款中文大模型AI眼镜:45克轻量设计,续航达56小时
百度在2024世界大会上首次亮相其最新AI硬件产品——小度AI眼镜。这款被称为"全球首款搭载中文大模型的原生AI眼镜"的产品,展现了百度在可穿戴设备领域的创新实力。从硬件规格来看,小度AI眼镜在轻量化设计上取得突破,整机重量仅45克,确保佩戴舒适度。配备16MP超广角摄像头,集成AI防抖算法,可实现稳定的第一视角拍摄。在续航方面,官方数据显示待机时间可达56小时,支持超过5小时的持续聆听模式,同时具备30分钟快充能力。声学系统采用四麦克风阵列设计,配合开放式防漏音扬
智源研究院推出全球首个中文大模型辩论平台FlagEval Debate
北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。
智源研究院发布代码生成训练数据集 TACO
["智源研究院发布了名为 TACO 的代码生成训练数据集,旨在为代码生成模型提供更具挑战性的训练数据和评测基准。","TACO 在数据规模、质量和评测方案上具有优势,包括更大规模的训练集和测试集,多样化的解题答案,以及细粒度的标签。","实验结果显示,当前流行的代码生成模型在 TACO 评测中与 GPT-4 存在显著差异,说明该领域仍有提升空间。","TACO 不仅是一个挑战性的测试方法,还可用作改进模型性能的训练数据,促进代码生成领域的发展。"]
智谱 AI 发布中文 LLM 对齐评测基准 AlignBench
["智谱 AI 发布了针对中文大模型的评测基准 AlignBench","AlignBench 能够在多维度上细致评测模型和人类意图的对齐水平","数据集分为 8 个大类,包括知识问答、写作生成、角色扮演等多种类型的问题","开发者可以利用 AlignBench 进行评测,并使用评价能力较强的打分模型进行评分","通过登录 AlignBench 网站,提交结果可以使用 CritiqueLLM 作为评分模型进行评测"]
ChatGPT 将应用户要求停止使用长破折号
OpenAI CEO Sam Altman宣布,ChatGPT自定义指令功能已支持禁用长破折号。用户可在设置菜单的个性化选项中调整AI响应方式。Altman称这是"小但令人开心的胜利",并表示该功能终于实现应有作用。
