正文

OpenAI推出AI Agent評測基準PaperBench

發布於AI新閒資訊

時間 :Apr 3, 2025

閱讀 :1分鐘

OpenAI 團隊推出了一個名爲 PaperBench 的基準測試，旨在評估AI代理在複製先進 AI 研究方面的能力。該測試要求 AI 代理從頭開始複製20篇2024年國際機器學習會議（ICML）中的重點和口頭論文，整個過程涉及理解論文貢獻、開發代碼庫以及成功執行實驗。

OpenAI，ChatGPT，人工智能，AI

爲確保評估的客觀性，研究人員設計了詳細的評分標準。這些標準將每項複製任務分解爲多個層級的子任務，並設定明確的評分標準。PaperBench 一共包含8316個可以單獨評分的任務，所有評分量規均與每篇論文的作者合作開發，以保證其準確性和真實性。

爲了實現大規模評估，研究團隊還開發了一種基於大型語言模型（LLM）的自動評分系統。這一系統能夠根據預設的評分標準對 AI 代理的複製嘗試進行評分，同時，團隊也爲該評分系統建立了獨立的基準，以評估其性能。

在對多個前沿 AI 模型進行評測後，研究發現表現最佳的代理是 Claude3.5Sonnet（新版本），其平均複製得分爲21.0%。爲了進一步驗證這些結果，研究人員還邀請了多位頂尖的機器學習博士生嘗試 PaperBench 的部分任務，結果顯示，目前的 AI 模型尚未超越人類的複製能力。

爲了推動後續研究，OpenAI 團隊決定將其開發的代碼開源，以便更多的研究者能夠利用這一平臺，深入探索 AI 代理的工程能力及其在複製 AI 研究方面的潛力。

項目代碼:https://github.com/openai/preparedness/tree/main/project/paperbench

劃重點:
🌟 PaperBench 是一個新基準，用於評估 AI 代理複製 AI 研究的能力，涉及20篇 ICML2024論文。
🔍 該測試設計了8316個可單獨評分的任務，評分標準與論文作者共同開發。
🤖 Claude3.5Sonnet 是測試中表現最好的模型，但仍未超越頂尖人類研究者。

Meta宣佈收購Manus，交易金額高達數十億美元

Meta以數十億美元收購AI初創公司Manus，旨在強化通用人工智能代理技術，提升市場競爭力。收購後Manus將保持獨立運營，繼續提供現有產品與服務，總部仍設於新加坡。

AI運維初創公司Resolve AI完成A輪融資，投前估值達10億美元，成爲新晉獨角獸。本輪融資由Lightspeed Venture Partners領投，採用多檔定價結構。公司由Splunk前員工創立，專注於自動化運維（SRE）領域，其快速發展反映了資本市場對AI企業服務賽道的高度關注。

谷歌推出A2UI開放標準，讓AI代理能即時生成圖形界面元素，如表單和按鈕，無縫融入應用，實現從純文本到動態界面的交互變革。該標準採用Apache 2.0許可證，旨在規範AI創建視覺響應的方式，彌合生成式AI與圖形用戶界面之間的鴻溝。

新加坡AI初創公司Manus在8個月內實現年度經常性收入（ARR）突破1億美元，創下全球最快紀錄。公司整體收入年化運行率超1.25億美元，標誌通用AI代理正加速商業化落地。

微軟在官方文檔中透露，Windows 11的新一代AI代理雖被視爲未來操作系統關鍵部分，能模擬人類操作以協助多步任務，但存在潛在風險，如出現“幻覺”、受惡意提示欺騙或成爲黑客攻擊入口。自2025年10月起，微軟將推進相關部署。

智啟未來，您的人工智能解決方案智庫