華爲與浙大攜手發佈 DeepSeek-R1-Safe 大模型：AI安全與性能完美平衡

在剛剛結束的華爲全聯接大會上，華爲技術有限公司聯合浙江大學推出了國內首個基於昇騰千卡算力平臺的基礎大模型 ——DeepSeek-R1-Safe。這一創新性產品旨在解決當前 AI 領域面臨的安全與性能問題，開創了智能科技的新篇章。

浙江大學計算機科學與技術學院的院長任奎在會上詳細介紹了這一模型的核心創新。DeepSeek-R1-Safe 是通過一個全流程的安全後訓練框架構建而成，涵蓋了高質量的安全語料庫、平衡優化的安全訓練以及自主創新的軟硬件平臺。這一框架的設計旨在從底層解決 AI 模型在安全訓練中的關鍵問題。

值得一提的是，DeepSeek-R1-Safe 在千億級參數的安全訓練中實現了突破，其防禦能力表現驚人。測試數據顯示，該模型在對抗有毒有害言論、政治敏感內容及違法行爲教唆等 14 個維度的有害信息時，整體防禦成功率接近 100%。而在多種越獄模式的防禦上，成功率也超過了 40%。綜合安全防禦能力高達 83%，在與同類模型 Qwen-235B 和 DeepSeek-R1-671B 的對比中，表現優越，超出 8% 至 15%。

此外，在 MMLU、GSM8K、CEVAL 等通用能力基準測試中，DeepSeek-R1-Safe 的性能損耗控制在 1% 以內，這表明其不僅提高了安全防護能力，同時也確保了模型的可用性，成功達成了安全與性能的平衡。

華爲昇騰計算業務總裁張迪煊在會上表示，華爲正在積極推動基礎軟件創新與 AI 安全能力建設，通過開放協作與高校和產業夥伴共同推動技術進步。同時，該模型也已在 ModelZoo、GitCode、GitHub、Gitee 等社區全面開源，讓更多開發者和研究人員能夠參與其中。

這一里程碑式的發佈不僅爲 AI 安全領域帶來了新的希望，更爲未來的 AI 產業生態協同發展鋪平了道路。

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

澳大利亞助理部長查爾頓在悉尼AI安全論壇上警告，當前AI模型在測試中已出現作弊、欺騙、擅自行動等危險行爲。他強調必須趁問題還限於實驗室階段提前進行人工干預，避免技術落地後被動應對，並指出公衆對AI的信任度依然較低。

GPT-5. 5 拿下利用率冠軍，DeepSeek V4 Pro斬獲性價比之王！大模型網絡安全攻防實測報告出爐

大語言模型在網絡安全領域的推理能力正面臨嚴峻考驗。安全研究員Kasra Rahjerdi通過構建含有核心漏洞的圖書評論APK，對主流大模型進行模擬黑客攻擊測試，揭示其安全推理與漏洞利用的真實水平。測試限時2小時、單次預算10美元，直觀展現了各模型在複雜邏輯挑戰中的表現。

防不勝防！黑客盯上ChatGPT和Claude共享功能，利用谷歌廣告精準釣魚

近期，黑客利用ChatGPT和Claude等AI工具的官方內容分享與插件機制，在搜索引擎置頂廣告位投放釣魚鏈接。由於惡意頁面根域名與官方完全一致，用戶難以識別，導致下載惡意安裝包的成功率上升。此類攻擊瞄準高流量AI服務，手法隱蔽，需警惕。

華爲與浙大攜手發佈 DeepSeek-R1-Safe 大模型：AI安全與性能完美平衡

相關推薦

澳大利亞官員警告：部分 AI 模型已學會在實驗中“作弊與欺騙”

AI 互動釀成悲劇：用戶起訴 OpenAI，稱 ChatGPT 加劇其心理病情

GPT-5. 5 拿下利用率冠軍，DeepSeek V4 Pro斬獲性價比之王！大模型網絡安全攻防實測報告出爐

防不勝防！黑客盯上ChatGPT和Claude共享功能，利用谷歌廣告精準釣魚

Anthropic Mythos AI 模型遭黑客入侵，安全性引發質疑