正文

草莓終於來了！OpenAI重磅發佈"o1"模型:推理能力超越人類

發布於AI新閒資訊

時間 :Sep 13, 2024

閱讀 :1分鐘

OpenAI於週四正式發佈了備受期待的AI語言模型"o1"。這款被稱爲"Strawberry"的新模型聲稱在"推理"和問題解決能力方面較之前的大型語言模型有顯著提升。o1模型系列目前以o1-preview和o1-mini兩種形式推出，面向ChatGPT Plus用戶和部分API用戶開放使用。

o1最引人注目的特點是其擬人化的思考過程。在回答問題前，o1會進入一種特殊的思考模式，將複雜問題分解成多個小步驟逐一解決，生成一條較長的內部思維鏈，從而得出更加準確的答案。

這種技術被谷歌DeepMind稱爲"訓練時計算"（Test-time computation），其核心在於使用密集型、流程導向的驗證獎勵模型搜索，以及自適應地更新模型對響應的概率分佈。

要點總結:
01-preview 和01-mini 版本響應時間較長，會像人一樣慢慢思考;
01系列處於測試階段，僅支持文本功能，其他特性如聯網、製圖、文件導入等待開發;
API原型開發受限於每分鐘20次請求;
API缺乏函數調用、流式輸出、系統信息等功能支持。

o1強在哪？

OpenAI表示，o1-preview在多項基準測試中超越了其前身GPT-4o，包括競爭性編程、數學和"科學推理"等領域。

在編程方面，o1-preview在Codeforces的競爭性編程問題中排名第89百分位。

在美國數學奧林匹克預選賽中，o1的表現可比肩美國前500名學生。o1的數學能力令人矚目，在國際數學奧林匹克競賽的資格考試中，o1-preview得分高達83%，而GPT-4o僅爲13%。

更令人震驚的是，o1在物理、生物學和化學等基準測試中首次超越了人類博士水平，標誌着AI在複雜推理能力上取得了突破性進展。

o1推理能力爲什麼強？

o1的進步主要歸功於一種新的強化學習訓練方法。這種方法教會模型在回答問題前花更多時間"思考"，類似於其他大語言模型中的"讓我們一步步思考"的思維鏈提示。這一過程使o1能夠嘗試不同的策略並"識別"自己的錯誤。

OpenAI表示，未來將繼續開發o1和GPT系列模型，並計劃爲o1-preview添加網頁瀏覽、圖像生成和文件上傳等功能。

然而，這些令人印象深刻的數據背後也存在爭議。有用戶反饋，o1並非在所有指標上都優於GPT-4o。

另外，由於模型在後臺進行多步處理，導致響應時間較長，也引發了一些批評。OpenAI產品經理Joanne Jang在社交媒體上表示:"o1是第一個在極其困難的任務中表現出色的推理模型，而且它只會變得更好。但它還不是一個在所有方面都優於以前模型的'奇蹟模型'。"

值得注意的是，AI基準測試向來不太可靠且容易被操縱。o1的真實能力還需要通過用戶的獨立驗證和實驗來證實。今年早些時候，麻省理工學院的研究就表明，OpenAI去年關於GPT-4的一些基準聲明存在錯誤或誇大。

除了性能提升，o1還引發了關於AI"推理"能力的討論。一些技術界人士認爲，將"思考"或"推理"等人類特徵歸因於AI模型是不恰當的。

官方資料：https://openai.com/index/introducing-openai-o1-preview/

官方入口：https://top.aibase.com/tool/openai-o1

OpenRouter發佈100萬億token AI使用狀態報告

OpenRouter基於超100萬億標記數據研究發現，自2024年12月o1推理模型推出後，大型語言模型使用方式顯著變化。開放權重模型使用增長明顯，尤其在創意角色扮演和編程輔助領域，超出預期。

Dec 5, 2025

254.8k

GPT-4.5首度以“人格扮演”通過圖靈測試：AI對話能力邁向新高度

近日，一項由加州大學聖地亞哥分校認知科學系主導的研究爲人工智能領域帶來了里程碑式的突破:OpenAI最新模型GPT-4.5在標準圖靈測試中，以“人格扮演”方式首次實現了超越人類的表現，成爲目前最具類人對話能力的AI系統。這一成果不僅刷新了人們對AI語言能力的認知，也爲AI在社會智能領域的應用潛力打開了新的想象空間。此次實驗選取了四款具有代表性的AI系統進行對比測試，包括經典的1960年代聊天機器人ELIZA、Meta AI研發的LLaMa-3.1-405B，以及OpenAI的GPT-4o和GPT-4.5。研究人員設計了兩組

Apr 2, 2025

437.5k

國產開源大模型 DeepSeek R1 發佈，性能超越o1模型、成本降90%

正文:近期，中國的 DeepSeek 團隊重磅推出了其最新開源大模型 R1，受到了廣泛關注。R1模型的性能表現極其出色，在多項測試中均超越了 OpenAI 的 o1模型，尤其是在數學和編程方面的評估中表現優異。在最新的美國 AIME2024測試中，R1以79.8分的成績超越 o1的79.2分。在 MATH-500測試中，R1獲得了97.3分，同樣領先於 o1的96.4分。此外，在 SWE-bench Verified 測試中，R1得分爲49.2，也超過了 o1的48.9分。雖然在代碼測試 Codeforces 中，R1僅比 o1低0.3分，但整體性能與 o1模型相當。除了性能，R1的成本優勢更爲引人

Jan 21, 2025

416.1k

新研究顯示：Anthropic 的 Claude AI 在合作能力上領先於 OpenAI 和谷歌模型

近日，一項新的研究論文揭示了不同 AI 語言模型在合作能力方面的顯著差異。研究團隊採用了一種經典的 “捐贈者遊戲”，測試了 AI 代理在多代合作中如何共享資源。結果顯示，Anthropic 的 Claude3.5Sonnet 表現出色，成功建立了穩定的合作模式，獲得了更高的資源總量。而谷歌的 Gemini1.5Flash 和 OpenAI 的 GPT-4o 則表現不佳，尤其是 GPT-4o 在測試中逐漸變得不合作，Gemini 代理的合作程度也十分有限。研究團隊進一步引入了懲罰機制，以觀察不同 AI 模型的表現變化。結果發現，Claude3.5的表現有了顯

Dec 23, 2024

213.6k

OpenAI再出招！爲新模型"o1"申請商標，再次捍衛知識產權版圖

在人工智能的快速發展賽道上，OpenAI正以雷霆萬鈞之勢推進其戰略佈局。近日，這家備受矚目的AI公司向美國專利商標局（USPTO）提交了最新AI模型"o1"的商標申請，這一舉動再次彰顯了其在知識產權領域的謹慎與決心。有趣的是，OpenAI早在今年5月就在牙買加提交了相關的國際商標申請，遠早於o1模型的正式對外宣佈。目前，這份商標申請正在等待審查員的評估，尚未獲得最終批准。這款被稱爲首個"推理"模型的o1，與傳統AI模型有着本質區別。OpenAI宣稱，o1將能夠通過更長時間地思考和分析問

Nov 28, 2024

177.9k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

草莓終於來了！OpenAI重磅發佈"o1"模型:推理能力超越人類

相關推薦

OpenRouter發佈100萬億token AI使用狀態報告

GPT-4.5首度以“人格扮演”通過圖靈測試：AI對話能力邁向新高度

​國產開源大模型 DeepSeek R1 發佈，性能超越o1模型、成本降90%

​新研究顯示：Anthropic 的 Claude AI 在合作能力上領先於 OpenAI 和谷歌模型

OpenAI再出招！爲新模型"o1"申請商標，再次捍衛知識產權版圖

國產開源大模型 DeepSeek R1 發佈，性能超越o1模型、成本降90%

新研究顯示：Anthropic 的 Claude AI 在合作能力上領先於 OpenAI 和谷歌模型