一個由上海交通大學參與的國際研究團隊今日正式推出全新基準測試工具 SWE-Explore,該工具通過將代碼搜索與實際修復階段進行解耦評估,首次量化揭示了當前 AI 編碼智能體在“行級精度”上的重大技術短板。這一研究打破了以往僅依賴“最終修復率”的單一評估模式,爲智能體上游搜索質量的直接衡量提供了全新標準,正推動 AI 軟件工程評測向深水區演進。
傳統的 SWE-bench 等基準測試因僅關注端到端的結果,往往掩蓋了智能體在代碼閱讀與理解階段的真實缺陷。爲此,研究團隊基於 GPT-5.4、Gemini3Pro、Claude Sonnet4.6及 Kimi K2.6等主流大模型的成功運行軌跡,提取出多條獨立解路徑交匯的共識代碼段作爲參考值,構建了包含10種編程語言、203個開源項目的848個缺陷任務數據集。

評測結果顯示,儘管 Claude Code、OpenHands 等通用編碼智能體在“文件級”定位上表現卓越,但在聚焦到具體的“代碼行”時,其核心區域覆蓋率驟降至14% 到19% 之間。消融實驗進一步證實了“最小上下文閾值”效應的存在:當關鍵核心區域的可見比例低於50% 時,模型修復基本宣告失敗;而一旦跨越50% 至75% 的閾值,修復成功率纔會出現斷崖式回升。
這一研究成果表明,當前 AI 智能體的瓶頸並非完全在於補丁編寫能力,而在於對關鍵上下文的精準過濾與捕捉。在當前行業內諸如項目經理拒絕半數自動化採納方案的現實背景下,SWE-Explore 提出的“少過濾、多閱讀”技術導向,不僅爲下一代專門化代碼定位系統(如 CoSIL 等)的架構優化指明瞭方向,也將加速自動化軟件工程從“暴力生成”向“精準檢索”的範式轉變。
