近日,階躍星辰(StepFun)正式推出了全新的深度研究智能體模型——Step-DeepResearch。這款擁有32B 參數量的模型旨在將傳統的網頁搜索轉化爲更具專業深度的研究工作流,能夠處理長程推理、工具調用及結構化報告撰寫等複雜任務。

image.png

與市面上常見的、主要針對短問題檢索優化的 Web Agent 不同,Step-DeepResearch更專注於真實的科研與分析場景。它能夠識別潛在的搜索意圖,在面對不確定性時進行多源驗證,並最終產出帶有引用的專業報告。階躍星辰團隊表示,該模型基於 Qwen2.532B-Base 構建,通過將研究流程內化爲單一智能體的決策過程,有效降低了推理成本。

爲了讓 AI 具備像人類專家一樣的研究水平,Step-DeepResearch重點打磨了四大“原子能力”:規劃與任務分解、深層信息獲取、反思與驗證,以及專業報告生成。在訓練過程中,團隊利用高質量的技術報告、財務文件以及知識圖譜數據構建了龐大的合成數據管線,使其在處理長程項目時具備極高的穩定性。

目前,該模型在 Scale AI 的研究評測指標中達到了61.42% 的依從率,表現足以媲美 OpenAI 和 Google 的同類深度研究系統。而在階躍星辰自有的 ADR-Bench 中文基準測試中,這款32B 模型甚至超越了部分更大規模的開源模型,展現出極高的實用價值和成本優勢。

論文:https://arxiv.org/pdf/2512.20491

劃重點:

  • 🧠 單智能體架構:Step-DeepResearch將規劃、搜索、驗證和撰寫內化爲單一模型的原子能力,無需調用多個外部智能體,顯著提升效率並降低成本。

  • 📚 深度科研導向:不同於簡單的問答檢索,該模型支持長達128k 的上下文,能夠從超過2000萬篇論文和權威索引中獲取信息,生成嚴謹的結構化報告。

  • 🏆 性能表現強勁:在多項深度研究評測中表現優異,其32B 的體量實現了可比肩大參數量閉源模型的專業研究水準。