12月1日 — 中國人工智能初創公司深度求索(DeepSeek AI)發佈了DeepSeek-V3.2系列模型。該模型包括DeepSeek-V3.2及其高計算增強版DeepSeek-V3.2-Speciale。新模型具有創新的稀疏注意力機制(DSA)和強化的Agent能力,旨在挑戰全球頂級AI模型,包括OpenAI的GPT-5和Google的Gemini3.0Pro。

DeepSeek-V3.2系列的核心在於其獨有的DeepSeek Sparse Attention (DSA)架構。該機制首次實現了細粒度的稀疏注意力,降低了長文本場景下的計算複雜度和內存佔用,同時保持了與密集註意力模型相當的性能。這一技術創新帶來了效率提升:
長文本任務上的推理速度提升了2至3倍。
API成本降低,官方宣佈價格降低了50%以上。
DeepSeek-V3.2被定位爲“Agent優先”的模型,專注於將深度推理能力與工具使用流程深度融合。該模型採用了大規模的 Agent 任務合成流水線進行訓練,提高了模型在現實世界應用場景中的泛化能力。新模型引入了“思考模式”,允許模型在執行復雜任務前進行鏈式邏輯推理,提升瞭解決問題的準確性。在一系列 Agent 評估中,V3.2達到了開源模型中的最高水平。

此次發佈包含兩個核心版本:
- DeepSeek-V3.2:該版本已上線於深度求索的網頁端、App和API服務。它是一個兼顧效率和性能的模型,適用於日常的推理助手和開發任務。
- DeepSeek-V3.2-Speciale:這是一個專注於極限推理能力的高計算增強版,目前僅通過臨時的API服務開放。官方報告稱,Speciale版本在某些高難度推理任務上的表現超越了GPT-5,並在2025年國際數學奧林匹克(IMO)和國際信息學奧林匹克(IOI)競賽中取得了金牌級別的成績。
深度求索已在Hugging Face上開放了V3.2模型的權重,並提供了相關的開源內核和演示代碼,支持研究人員和企業進行商業部署。分析人士認爲,DeepSeek V3.2的發佈標誌着AI行業向結合深度推理和實際工具操作的模型邁出了一步,進一步縮小了開源模型與閉源巨頭之間的差距。開發者可以通過查閱DeepSeek API 文檔瞭解更多技術細節和使用指南。
地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp
