上海交大等團隊推出 SWE-Explore 基準測試，揭示 AI 編碼智能體行級定位缺陷

一個由上海交通大學參與的國際研究團隊今日正式推出全新基準測試工具 SWE-Explore，該工具通過將代碼搜索與實際修復階段進行解耦評估，首次量化揭示了當前 AI 編碼智能體在“行級精度”上的重大技術短板。這一研究打破了以往僅依賴“最終修復率”的單一評估模式，爲智能體上游搜索質量的直接衡量提供了全新標準，正推動 AI 軟件工程評測向深水區演進。

傳統的 SWE-bench 等基準測試因僅關注端到端的結果，往往掩蓋了智能體在代碼閱讀與理解階段的真實缺陷。爲此，研究團隊基於 GPT-5.4、Gemini3Pro、Claude Sonnet4.6及 Kimi K2.6等主流大模型的成功運行軌跡，提取出多條獨立解路徑交匯的共識代碼段作爲參考值，構建了包含10種編程語言、203個開源項目的848個缺陷任務數據集。

評測結果顯示，儘管 Claude Code、OpenHands 等通用編碼智能體在“文件級”定位上表現卓越，但在聚焦到具體的“代碼行”時，其核心區域覆蓋率驟降至14% 到19% 之間。消融實驗進一步證實了“最小上下文閾值”效應的存在:當關鍵核心區域的可見比例低於50% 時，模型修復基本宣告失敗;而一旦跨越50% 至75% 的閾值，修復成功率纔會出現斷崖式回升。

這一研究成果表明，當前 AI 智能體的瓶頸並非完全在於補丁編寫能力，而在於對關鍵上下文的精準過濾與捕捉。在當前行業內諸如項目經理拒絕半數自動化採納方案的現實背景下，SWE-Explore 提出的“少過濾、多閱讀”技術導向，不僅爲下一代專門化代碼定位系統（如 CoSIL 等）的架構優化指明瞭方向，也將加速自動化軟件工程從“暴力生成”向“精準檢索”的範式轉變。

JetBrains 推出編碼智能體 Junie AI，助力編程與調試全新體驗

日前，JetBrains 公司正式宣佈其全新的編碼智能體 ——Junie AI，已達到 “生產就緒”（production-ready）的狀態。這意味着，開發者們可以利用 Junie AI 更高效地處理編寫代碼和調試運行等複雜任務。Junie AI 的推出，標誌着 JetBrains 在 AI 工具領域的又一重大進展。除了 Junie AI，JetBrains 還對其舊版 AI 助手進行了更新，支持接入最新的 AI 模型，包括 Anthropic Claude3.7Sonnet 和 Google Gemini2.5Pro。這些更新使得 AI 助手能夠提供更加精準的代碼建議和輔助功能，同時新增了聊天界面的多文件編輯功能，進一步

豆包上線“任務模式”:支持多輪搜索與PPT自動化生成

字節跳動旗下AI助手豆包正式上線“任務模式”，從單一文本交互升級爲具備複雜工作流處理能力的AI智能體。該模式支持多輪搜索、深度推理、瀏覽器自動操作及多模態內容生成，能主動將用戶宏觀目標拆解爲子任務，並通過聯網搜索等方式執行，顯著提升自動化與任務處理效率。

上海交大等團隊推出 SWE-Explore 基準測試，揭示 AI 編碼智能體行級定位缺陷

相關推薦

JetBrains 推出編碼智能體 Junie AI，助力編程與調試全新體驗

銀行業百萬美元年薪爭奪首席AI官 IBM調查顯示高管設置率一年內激增50%

雨果獎作家新書惹爭議！主動承認AI寫作比重竟佔一半

豆包上線“任務模式”:支持多輪搜索與PPT自動化生成

皮膚問題心中沒底？“AI問診+醫生複覈”新模式上線

上海交大等團隊推出 SWE-Explore 基準測試，揭示 AI 編碼智能體行級定位缺陷

相關推薦

​JetBrains 推出編碼智能體 Junie AI，助力編程與調試全新體驗

銀行業百萬美元年薪爭奪首席AI官 IBM調查顯示高管設置率一年內激增50%

雨果獎作家新書惹爭議！主動承認AI寫作比重竟佔一半

豆包上線“任務模式”:支持多輪搜索與PPT自動化生成

皮膚問題心中沒底？“AI問診+醫生複覈”新模式上線

JetBrains 推出編碼智能體 Junie AI，助力編程與調試全新體驗