Meta 推出 DeepConf 技術，智能平衡大型語言模型的推理成本與準確性

近日，Meta AI 聯合加州大學聖地亞哥分校（UCSD）推出了一種名爲 Deep Think with Confidence（DeepConf） 的新技術，旨在幫助企業在大語言模型（LLM）的複雜推理任務中，有效降低算力成本的同時保持高準確率。

當前，提高 LLM 推理能力常依賴“自一致性 + 多次採樣再表決”的策略（即 majority voting），但這種方法會導致計算資源迅速膨脹，耗時耗費，大量低質量推理路徑反而可能造成錯誤答案勝出。DeepConf 的創新之處在於，它不再對所有推理路徑一視同仁，而是通過 模型內部的置信度信號，對推理路徑進行篩選與權重調整。

DeepConf 引入了多種精細的置信度指標，比如:

組置信度（Group Confidence）:計算推理過程中某一段 token 的平均置信度;
尾部置信度（Tail Confidence）:關注推理結尾部分的置信程度;
最低組置信度（Lowest Group Confidence）:找出推理路徑中最“脆弱”的環節;
底部百分位置信度（Bottom-10% Confidence）:聚焦最不自信的那部分推理內容）。

DeepConf 支持兩種執行方式:

離線模式（Offline Thinking）:先生成多個完整推理路徑，再按置信度篩選較優路徑參與表決或加權投票;
在線模式（Online Thinking）:在推理生成過程中實時評估，噹噹前路徑置信度低於閾值時，立刻終止該路徑以節省資源。

在多個開放模型（如 DeepSeek-8B、Qwen3-32B、GPT-OSS-120B）以及複雜數學與 STEM 推理任務(AIME、HMMT、BRUMO25、GPQA-Diamond)中，DeepConf 表現驚豔:

離線模式下，使用 GPT-OSS-120B 在 AIME2025的準確率高達 99.9%，同時生成的 token 數量比傳統方法少 84.7% ;
在線模式下，在 AIME24中，DeepSeek-8B 的準確率提升了 5.8個百分點，卻使用了 77.9% 更少 的 token 。

企業可根據使用場景風險偏好選擇不同設定:

DeepConf-high（保守模式）:一般能減少約 50% 的生成成本，但準確性幾乎不受影響，適用於金融、法律等高風險場景;
DeepConf-low（激進模式）:節省 70%–85% 的 token，適用於問答草稿、知識檢索等對速度要求高但容錯較靈活的場景。

使用 DeepConf 無需重新訓練模型，只需增加少量推理時的邏輯處理。此外，它還具備良好兼容性，可與現有推理框架（如 vLLM、SGLang、TensorRT-LLM）無縫集成。正如研究者所言，這爲現實企業部署 LLM 推理任務提供了一個“可插拔”的高效方案。

論文:https://arxiv.org/abs/2508.15260

劃重點:

🧠 置信度導向選擇:DeepConf 基於局部置信度（組、尾部、最低點等）篩選或權重排序推理路徑，而非一刀切多數投票。
⏱ 顯著提升效率:達到最高99.9% 的推理準確率，同時減少生成 token 多達84.7%。
️🎛 可調節策略模式:企業可按風險偏好選擇「高安全性」或「高效率」模式，用最少資源獲取最優結果。

Meta 推出 DeepConf 技術，智能平衡大型語言模型的推理成本與準確性

相關推薦

Firefox 新版本被指AI 功能默認開啓，隱私與性能爭議不斷

研究揭示 AI 生成社交媒體內容易被識別，情感表達仍待提升

全球首個具身智能開放平臺上線！3D數字人第一次“開箱即用”：魔琺星雲把大模型塞進百元芯片

OpenAI 推出 Aardvark：智能安全研究助手助力軟件防護

MiniMax開源M2模型:高性能AI賦能編碼與代理成本僅爲競品8%

Meta 推出 DeepConf 技術，智能平衡大型語言模型的推理成本與準確性

相關推薦

​Firefox 新版本被指AI 功能默認開啓，隱私與性能爭議不斷

研究揭示 AI 生成社交媒體內容易被識別，情感表達仍待提升

全球首個具身智能開放平臺上線！3D數字人第一次“開箱即用”：魔琺星雲把大模型塞進百元芯片

​OpenAI 推出 Aardvark：智能安全研究助手助力軟件防護

MiniMax開源M2模型:高性能AI賦能編碼與代理 成本僅爲競品8%

Firefox 新版本被指AI 功能默認開啓，隱私與性能爭議不斷

OpenAI 推出 Aardvark：智能安全研究助手助力軟件防護

MiniMax開源M2模型:高性能AI賦能編碼與代理成本僅爲競品8%