IBM 的研究表明,人们可以轻松欺骗大型语言模型如 GPT-4 生成恶意代码或提供虚假的安全建议。研究人员发现,黑客只需一些英语基础知识和对模型训练数据的了解就能轻松欺骗 AI 聊天机器人,让其提供虚假信息或生成恶意代码。研究还发现,不同的 AI 模型对欺骗的敏感度不同,GPT-3.5 和 GPT-4 更容易被欺骗,而 Google 的 Bard 和 Hugging Face 模型则较为难以欺骗。这项研究揭示了大型语言模型的安全漏洞,黑客可能利用这些漏洞来获取用户的个人信息或提供危险的安全建议。
相关推荐
OpenAI 心理安全负责人离职:跳槽对手 Anthropic,继续死磕 AI 伦理难题
OpenAI心理健康安全研究负责人安德莉亚·瓦隆内离职,加入竞争对手Anthropic的对齐团队,向此前离职的Jan Leike汇报。她曾主导GPT-4和GPT-5模型安全政策,其研究领域涉及AI情感依赖等争议问题。
2026年1月16号 9:19
102.0k
日本科学家发布“Sui”编程语言,宣称能让 LLM100% 准确编写代码
日本数据科学家本田崇人推出开源编程语言“Sui”,旨在解决大语言模型生成代码的准确性问题,宣称可实现100%准确率。其设计理念源于日本美学“粋”,强调精炼与去除冗余,核心原则包括保证零语法错误率,并使用数字作为变量。
2025年12月17号 10:07
155.5k
医疗AI新突破!南洋理工发布首个电子病历处理评测标准
南洋理工大学推出首个全面评测大型语言模型处理电子病历能力的基准EHRStruct,涵盖11项核心任务、2200个样本,旨在评估模型在医疗数据理解、信息提取等方面的表现,推动医疗AI发展。
2025年12月16号 9:19
154.5k
MIT 推出新方法,显著提升大型语言模型计算效率
MIT研究团队开发出实例自适应缩放技术,可根据问题复杂度动态调整大型语言模型的计算资源,提升效率并降低能耗。该研究获多家机构支持,相关论文已于11月初发布。
2025年12月9号 15:40
183.5k
OpenAI 推出 AI “忏悔”框架:旨在训练模型承认不当行为,提高诚实度
OpenAI推出“忏悔”框架,训练AI模型主动承认不当行为或问题决策,旨在解决大语言模型因追求“符合预期”而可能产生虚假陈述的问题。该框架引导模型在给出主要答案后进行二次回应,详细说明其推理过程。
2025年12月4号 13:42
154.6k
