英国政府增加投资,推动先进人工智能模型的安全研究


最新研究显示,ChatGPT等大语言模型易受数据中毒攻击,仅需约250份污染文件即可植入后门,改变模型回应,暴露AI安全脆弱性,引发对现有防护措施的反思。
研究表明,仅需250份投毒文件即可在大型语言模型中植入后门,且攻击效果与模型大小无关。测试涵盖6亿至130亿参数模型,发现即使使用更干净数据训练的大模型,所需中毒文档数量不变,挑战了传统认知。
阿里云通义团队9月28日推出Qwen3Guard,这是Qwen家族首款安全护栏模型。基于Qwen3架构专项微调,旨在提升AI交互安全性,精准识别用户输入和AI回复中的潜在风险,提供可靠防护。
在刚刚结束的华为全联接大会上,华为技术有限公司联合浙江大学推出了国内首个基于昇腾千卡算力平台的基础大模型 ——DeepSeek-R1-Safe。这一创新性产品旨在解决当前 AI 领域面临的安全与性能问题,开创了智能科技的新篇章。浙江大学计算机科学与技术学院的院长任奎在会上详细介绍了这一模型的核心创新。DeepSeek-R1-Safe 是通过一个全流程的安全后训练框架构建而成,涵盖了高质量的安全语料库、平衡优化的安全训练以及自主创新的软硬件平台。这一框架的设计旨在从底层解决 AI 模型在
随着人工智能模型能力快速提升,AI安全问题日益凸显。周三,专注于AI安全评估的公司Irregular宣布完成8000万美元新一轮融资,由红杉资本和红点创投领投,网络安全公司Wiz首席执行官阿萨夫·拉帕波特也参与投资。知情人士透露,此轮融资对Irregular的估值达到4.5亿美元。前瞻性安全防护理念"我们的观点是,很快,大量的经济活动将来自人与人工智能的互动以及人工智能与人工智能的互动,这将在多个方面打破安全体系,"联合创始人丹·拉哈夫告诉TechCrunch。这一判断反映了Irregular对AI时代