相关推荐
顾全全确认离职字节Seed团队,曾主导SeedFold与Seed2.0训练体系建设
字节跳动Seed团队核心研究员顾全全确认离职,其在社交平台发文回顾了三年间在AI药物发现和大语言模型预训练领域的研究成果。她主导研发的生物分子结构预测模型SeedFold在多个公开基准测试中表现优异。此次离职正值字节AI业务加速商业化,引发外界对AI for Science创业热潮的关注。
2026年6月8号 13:48
153.6k
告别单轮傻瓜问答!云知声发布原生智能体大模型U2,自主攻克百步复杂工作流
生成式人工智能正从聊天工具向“超级数字员工”进化。6月8日,云知声发布新一代通用大模型U2,专为个人、开发者及企业设计。它突破传统单轮对话局限,聚焦高智能密度与高Token价值,提升实际交付能力。
2026年6月8号 10:21
131.2k
腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench
腾讯混元团队与中国人民大学等机构联合开源了PlanningBench,这是一个用于评测和训练大语言模型规划能力的框架。它系统化地抽象了任务、约束和难度,覆盖30多种规划任务类型,支持数据生成与验证,旨在评估模型的实际规划能力。
2026年6月5号 17:34
315.6k
GPT 5.5 称霸 AI 漏洞挑战,DeepSeek 斩获“性价比之王”
安全研究员Kasra Rahjerdi通过构建含漏洞的图书评论应用,测试主流大语言模型的安全推理能力。他故意暴露谷歌移动端后端服务凭据,要求模型解包并识别以访问数据库。在每场2小时、预算10美元的严格条件下,评估了顶尖模型的表现。
2026年6月4号 16:55
266.9k
GPT-5. 5 拿下利用率冠军,DeepSeek V4 Pro斩获性价比之王!大模型网络安全攻防实测报告出炉
大语言模型在网络安全领域的推理能力正面临严峻考验。安全研究员Kasra Rahjerdi通过构建含有核心漏洞的图书评论APK,对主流大模型进行模拟黑客攻击测试,揭示其安全推理与漏洞利用的真实水平。测试限时2小时、单次预算10美元,直观展现了各模型在复杂逻辑挑战中的表现。
2026年6月4号 15:56
304.4k
