OpenAI於週四正式發佈了備受期待的AI語言模型"o1"。這款被稱爲"Strawberry"的新模型聲稱在"推理"和問題解決能力方面較之前的大型語言模型有顯著提升。o1模型系列目前以o1-preview和o1-mini兩種形式推出,面向ChatGPT Plus用戶和部分API用戶開放使用。

QQ20240913-085457.jpg

o1最引人注目的特點是其擬人化的思考過程。在回答問題前,o1會進入一種特殊的思考模式,將複雜問題分解成多個小步驟逐一解決,生成一條較長的內部思維鏈,從而得出更加準確的答案。

image.png

這種技術被谷歌DeepMind稱爲"訓練時計算"(Test-time computation),其核心在於使用密集型、流程導向的驗證獎勵模型搜索,以及自適應地更新模型對響應的概率分佈。

要點總結:

  • 01-preview 和01-mini 版本響應時間較長,會像人一樣慢慢思考;

  • 01系列處於測試階段,僅支持文本功能,其他特性如聯網、製圖、文件導入等待開發;

  • API原型開發受限於每分鐘20次請求;

  • API缺乏函數調用、流式輸出、系統信息等功能支持。

o1強在哪?

OpenAI表示,o1-preview在多項基準測試中超越了其前身GPT-4o,包括競爭性編程、數學和"科學推理"等領域。

image.png

在編程方面,o1-preview在Codeforces的競爭性編程問題中排名第89百分位。

在美國數學奧林匹克預選賽中,o1的表現可比肩美國前500名學生。o1的數學能力令人矚目,在國際數學奧林匹克競賽的資格考試中,o1-preview得分高達83%,而GPT-4o僅爲13%。

更令人震驚的是,o1在物理、生物學和化學等基準測試中首次超越了人類博士水平,標誌着AI在複雜推理能力上取得了突破性進展。

image.png

o1推理能力爲什麼強?

o1的進步主要歸功於一種新的強化學習訓練方法。這種方法教會模型在回答問題前花更多時間"思考",類似於其他大語言模型中的"讓我們一步步思考"的思維鏈提示。這一過程使o1能夠嘗試不同的策略並"識別"自己的錯誤。

OpenAI表示,未來將繼續開發o1和GPT系列模型,並計劃爲o1-preview添加網頁瀏覽、圖像生成和文件上傳等功能。

然而,這些令人印象深刻的數據背後也存在爭議。有用戶反饋,o1並非在所有指標上都優於GPT-4o。

另外,由於模型在後臺進行多步處理,導致響應時間較長,也引發了一些批評。OpenAI產品經理Joanne Jang在社交媒體上表示:"o1是第一個在極其困難的任務中表現出色的推理模型,而且它只會變得更好。但它還不是一個在所有方面都優於以前模型的'奇蹟模型'。"

QQ20240913-092226.jpg

值得注意的是,AI基準測試向來不太可靠且容易被操縱。o1的真實能力還需要通過用戶的獨立驗證和實驗來證實。今年早些時候,麻省理工學院的研究就表明,OpenAI去年關於GPT-4的一些基準聲明存在錯誤或誇大。

除了性能提升,o1還引發了關於AI"推理"能力的討論。一些技術界人士認爲,將"思考"或"推理"等人類特徵歸因於AI模型是不恰當的。

官方資料:https://openai.com/index/introducing-openai-o1-preview/

官方入口:https://top.aibase.com/tool/openai-o1