近日,Meta AI 聯合加州大學聖地亞哥分校(UCSD)推出了一種名爲 Deep Think with Confidence(DeepConf) 的新技術,旨在幫助企業在大語言模型(LLM)的複雜推理任務中,有效降低算力成本的同時保持高準確率 。

當前,提高 LLM 推理能力常依賴“自一致性 + 多次採樣再表決”的策略(即 majority voting),但這種方法會導致計算資源迅速膨脹,耗時耗費,大量低質量推理路徑反而可能造成錯誤答案勝出 。DeepConf 的創新之處在於,它不再對所有推理路徑一視同仁,而是通過 模型內部的置信度信號,對推理路徑進行篩選與權重調整 。
DeepConf 引入了多種精細的置信度指標,比如:
組置信度(Group Confidence):計算推理過程中某一段 token 的平均置信度;
尾部置信度(Tail Confidence):關注推理結尾部分的置信程度;
最低組置信度(Lowest Group Confidence):找出推理路徑中最“脆弱”的環節;
底部百分位置信度(Bottom-10% Confidence):聚焦最不自信的那部分推理內容 )。
DeepConf 支持兩種執行方式:
離線模式(Offline Thinking):先生成多個完整推理路徑,再按置信度篩選較優路徑參與表決或加權投票;
在線模式(Online Thinking):在推理生成過程中實時評估,噹噹前路徑置信度低於閾值時,立刻終止該路徑以節省資源 。
在多個開放模型(如 DeepSeek-8B、Qwen3-32B、GPT-OSS-120B)以及複雜數學與 STEM 推理任務(AIME、HMMT、BRUMO25、GPQA-Diamond)中,DeepConf 表現驚豔:
離線模式下,使用 GPT-OSS-120B 在 AIME2025的準確率高達 99.9%,同時生成的 token 數量比傳統方法少 84.7% ;
在線模式下,在 AIME24中,DeepSeek-8B 的準確率提升了 5.8個百分點,卻使用了 77.9% 更少 的 token 。
企業可根據使用場景風險偏好選擇不同設定:
DeepConf-high(保守模式):一般能減少約 50% 的生成成本,但準確性幾乎不受影響,適用於金融、法律等高風險場景;
DeepConf-low(激進模式):節省 70%–85% 的 token,適用於問答草稿、知識檢索等對速度要求高但容錯較靈活的場景 。
使用 DeepConf 無需重新訓練模型,只需增加少量推理時的邏輯處理。此外,它還具備良好兼容性,可與現有推理框架(如 vLLM、SGLang、TensorRT-LLM)無縫集成。正如研究者所言,這爲現實企業部署 LLM 推理任務提供了一個“可插拔”的高效方案。
論文:https://arxiv.org/abs/2508.15260
劃重點:
🧠 置信度導向選擇:DeepConf 基於局部置信度(組、尾部、最低點等)篩選或權重排序推理路徑,而非一刀切多數投票。
⏱ 顯著提升效率:達到最高99.9% 的推理準確率,同時減少生成 token 多達84.7%。
️🎛 可調節策略模式:企業可按風險偏好選擇「高安全性」或「高效率」模式,用最少資源獲取最優結果。
