OpenAI在其爲期12天的發佈活動中宣佈了新一代推理系列模型——o3及其精簡版o3-mini,這兩款模型被視爲o1系列的繼任者,特別設計爲在回答問題前進行更深入的思考以提高準確率。

o3模型在ARC-AGI基準測試中達到了優良水平,成爲首個突破該基準的AI模型,展現了接近人類水平的問題求解能力。o3系列模型在ARC-AGI基準上的最低性能可達到75.7%,而在更多計算資源的情況下,性能可提升至87.5%。

o3-mini模型則專注於提升推理速度和降低成本,同時保持模型性能,特別適合編程任務。OpenAI計劃在一月底左右推出o3-mini,並在不久後推出完整的o3模型。儘管o3系列模型不會直接公開發布,而是先進行安全測試,但OpenAI已開始允許安全研究人員註冊訪問o3和o3-mini的預覽。

OpenAI最強推理模型o3 發佈:AGI能力暴漲 接近人類水平

在編程和數學問題解決方面,o3模型展現了顯著的能力。在SWE-bench Verified基準上,o3的準確率約爲71.7%,比o1模型高出20%以上。在Competition Code中,o3獲得了2727Elo得分,而o1僅爲1891。此外,o3在競賽數學上的準確率達到96.7%,在GPQA Diamond上的準確率達到87.7%,比o1高出近10%。

OpenAI還介紹了一種新的安全評估方法——deliberative alignment,即審議式對齊,這是一種直接教授模型安全規範的新範式,並可訓練模型在回答前明確回憶規範並準確地執行推理。這種方法被用於對齊OpenAI的o系列模型,並實現了對OpenAI安全政策的高度精確遵守。

目前,OpenAI正在推進外部安全測試,並已在網站上開放早期訪問申請,申請者需填寫在線表格並提供相關信息。選定的研究人員將被授予訪問o3和o3-mini的權限,以探索它們的能力併爲安全評估做出貢獻。