AI 初創公司 Cognition 推出了全新的 AI 程序員 “Genie”,它的表現可謂驚人,瞬間擊敗了 Devin 和 GPT-4,成爲全球最強的 AI 編程助手。

image.png

這款 AI 程序員在權威測試平臺 SWE-Bench 上,得分高達30.08%,遠遠超過 Devin 的13.8% 和 Swe-agent+GPT-4的12.47%。

image.png

你可能會好奇,Genie 是怎麼做到的?早在2022年12月,Genie 的聯合創始人 Alistair Pullen 就在倫敦大學展示過這個項目。他希望創造出一個能像人類一樣自動進行編碼、調試和優化的 AI 程序。經過一年多的開發,Genie 終於進入了測試階段,並且獲得了250萬美元的種子輪融資。

Alistair 提到,Genie 的成功和它的訓練數據以及方法密切相關。與傳統的大模型微調不同,Genie 使用了一個包含人類程序員推理過程的特殊數據集。這些數據涵蓋了知識的逐步發現和基於案例的決策過程,使 Genie 在面對複雜問題時,能夠展現出類似人類工程師的判斷力。

此外,Genie 還採用了獨特的 “自我改進機制”。最初,Genie 在高質量的數據上進行訓練,達到 “完美” 狀態,但在這個過程中,Genie 對自身錯誤的判斷和改進不足。爲了克服這一問題,開發者使用 Genie 生成了一些合成數據,進一步豐富了訓練內容。這就好比媽媽教孩子走路,每次跌倒後都給予正確的指導。

image.png

經過多次迭代訓練,Genie 的能力大幅提升,甚至能在未見過的問題上展現出創造性解決方案。功能上,Genie 支持多種開發任務,包括功能開發、BUG 修復、代碼重構、代碼測試等,涵蓋了 JavaScript、Python、Java 等幾十種編程語言。

現在,Genie 已經開放了申請試用,大家可以通過官網註冊,預計在接下來的幾周內會發放測試權限。

官方博客:https://cosine.sh/blog/state-of-the-art

體驗地址:https://cosine.sh/register

劃重點:

🌟 Genie 在 SWE-Bench 測試中得分高達30.08%,成爲全球最強 AI 程序員。

🚀 採用特殊數據集和自我改進機制,使 Genie 在複雜編碼中表現出色。

📝 目前已開放申請試用,未來將推出更多驚喜功能!