放大招！OpenAI發佈最強推理模型o3 以及精簡版o3-mini

OpenAI在其爲期12天的發佈活動中宣佈了新一代推理系列模型——o3及其精簡版o3-mini，這兩款模型被視爲o1系列的繼任者，特別設計爲在回答問題前進行更深入的思考以提高準確率。

o3模型在ARC-AGI基準測試中達到了優良水平，成爲首個突破該基準的AI模型，展現了接近人類水平的問題求解能力。o3系列模型在ARC-AGI基準上的最低性能可達到75.7%，而在更多計算資源的情況下，性能可提升至87.5%。

o3-mini模型則專注於提升推理速度和降低成本，同時保持模型性能，特別適合編程任務。OpenAI計劃在一月底左右推出o3-mini，並在不久後推出完整的o3模型。儘管o3系列模型不會直接公開發布，而是先進行安全測試，但OpenAI已開始允許安全研究人員註冊訪問o3和o3-mini的預覽。

OpenAI最強推理模型o3 發佈：AGI能力暴漲接近人類水平

在編程和數學問題解決方面，o3模型展現了顯著的能力。在SWE-bench Verified基準上，o3的準確率約爲71.7%，比o1模型高出20%以上。在Competition Code中，o3獲得了2727Elo得分，而o1僅爲1891。此外，o3在競賽數學上的準確率達到96.7%，在GPQA Diamond上的準確率達到87.7%，比o1高出近10%。

OpenAI還介紹了一種新的安全評估方法——deliberative alignment，即審議式對齊，這是一種直接教授模型安全規範的新範式，並可訓練模型在回答前明確回憶規範並準確地執行推理。這種方法被用於對齊OpenAI的o系列模型，並實現了對OpenAI安全政策的高度精確遵守。

目前，OpenAI正在推進外部安全測試，並已在網站上開放早期訪問申請，申請者需填寫在線表格並提供相關信息。選定的研究人員將被授予訪問o3和o3-mini的權限，以探索它們的能力併爲安全評估做出貢獻。

xAI加速AI前沿：馬斯克宣佈Grok5 將在數週內開始訓練

xAI創始人埃隆·馬斯克（Elon Musk）剛剛宣佈，備受期待的Grok5模型將在未來幾周內開始訓練。馬斯克的聲明是對近期AI基準測試進展的迴應，尤其是基於當前Grok4模型的開源方案在ARC-AGI挑戰賽中取得了突破性成果。ARC-AGI是一項考驗AI泛化和解決新問題的嚴格測試，使用Grok4的定製提交在程序合成和測試時適應性方面超越了以往記錄。馬斯克表示，Grok5的訓練將利用更強大的計算資源，旨在超越現有基準，應對更爲複雜的挑戰。此進展與xAI持續擴展其“巨型”超級計算機基礎設施（Colossus）密切

OpenAI重磅升級:深度研究模型API開放，網頁搜索功能大幅降價

OpenAI宣佈正式開放其深度研究模型的API訪問權限，爲開發者提供包括自動網頁搜索、數據分析、MCP（模型通信協議）和代碼執行在內的強大工具集。此次開放的模型包括o3和o4-mini的深度研究版本，這些模型此前已在ChatGPT中投入使用，現在開發者可通過API直接調用。這些模型特別適用於需要獲取最新信息和進行高級推理的複雜任務。在功能擴展方面，o3、o3-pro和o4-mini等模型均已支持網頁搜索功能。OpenAI同時調整了定價策略:推理網頁搜索服務的起價爲每千次調用10美元，而GPT-4o和GPT-4.1的網頁

硅基流動上線全球首個開源大規模混合注意力推理模型 MiniMax-M1-80k

硅基流動（SiliconCloud）正式上線了全球首個開源的大規模混合注意力推理模型 ——MiniMax-M1-80k(456B)。這一創新模型旨在爲軟件工程、長上下文理解和工具使用等複雜任務提供強有力的支持，並且在性能上可與目前頂尖的模型如 o3和 Claude4Opus 相媲美。據悉，MiniMax-M1-80k 具備最大支持128K 的上下文長度，這爲處理長文本提供了極大的便利。對於有特殊需求的用戶，平臺還提供了後臺支持，滿足1M 的長上下文需求。使用該模型的價格爲輸入 ¥4每百萬 Tokens，輸出則爲 ¥16每百萬 Tokens。新用戶在首

放大招！OpenAI發佈最強推理模型o3 以及精簡版o3-mini

相關推薦

老用戶心碎！OpenAI官宣退役o3 與GPT-4. 5 大模型

xAI加速AI前沿：馬斯克宣佈Grok5 將在數週內開始訓練

OpenAI o3橫掃奪冠！AI象棋大賽揭露通用模型真實棋力

OpenAI重磅升級:深度研究模型API開放，網頁搜索功能大幅降價

硅基流動上線全球首個開源大規模混合注意力推理模型 MiniMax-M1-80k