OpenAI 團隊推出了一個名爲 PaperBench 的基準測試,旨在評估AI代理在複製先進 AI 研究方面的能力。該測試要求 AI 代理從頭開始複製20篇2024年國際機器學習會議(ICML)中的重點和口頭論文,整個過程涉及理解論文貢獻、開發代碼庫以及成功執行實驗。

OpenAI,ChatGPT,人工智能,AI

爲確保評估的客觀性,研究人員設計了詳細的評分標準。這些標準將每項複製任務分解爲多個層級的子任務,並設定明確的評分標準。PaperBench 一共包含8316個可以單獨評分的任務,所有評分量規均與每篇論文的作者合作開發,以保證其準確性和真實性。

爲了實現大規模評估,研究團隊還開發了一種基於大型語言模型(LLM)的自動評分系統。這一系統能夠根據預設的評分標準對 AI 代理的複製嘗試進行評分,同時,團隊也爲該評分系統建立了獨立的基準,以評估其性能。

在對多個前沿 AI 模型進行評測後,研究發現表現最佳的代理是 Claude3.5Sonnet(新版本),其平均複製得分爲21.0%。爲了進一步驗證這些結果,研究人員還邀請了多位頂尖的機器學習博士生嘗試 PaperBench 的部分任務,結果顯示,目前的 AI 模型尚未超越人類的複製能力。

爲了推動後續研究,OpenAI 團隊決定將其開發的代碼開源,以便更多的研究者能夠利用這一平臺,深入探索 AI 代理的工程能力及其在複製 AI 研究方面的潛力。

項目代碼:https://github.com/openai/preparedness/tree/main/project/paperbench

劃重點:

🌟 PaperBench 是一個新基準,用於評估 AI 代理複製 AI 研究的能力,涉及20篇 ICML2024論文。

🔍 該測試設計了8316個可單獨評分的任務,評分標準與論文作者共同開發。

🤖 Claude3.5Sonnet 是測試中表現最好的模型,但仍未超越頂尖人類研究者。