在今天凌晨1點的技術直播中,OpenAI正式推出其最新最強大的多模態模型o4-mini和滿血版o3。這兩款模型具備獨特優勢,不僅能同時處理文本、圖像和音頻,還可作爲智能體自動調用網絡搜索、圖像生成、代碼解析等工具,並且擁有深度思考模式,能在思維鏈中思考圖像。

微信截圖_20250417075201.png

OpenAI公佈的測試數據顯示,o4-mini表現卓越。在AIME2024和2025測試中,其準確率分別達到93.4%和92.7%,甚至超越滿血版o3,成爲目前準確率最高的模型。在Codeforces編程競賽測試中,o4-mini獲得2700分,躋身全球前200名最強程序員之列。

與傳統大模型不同,OpenAI首次賦予o3和o4-mini調用外部工具的能力。在訓練過程中,模型不僅學習文本生成,還學習在面對複雜任務時如何選擇合適的工具輔助推理。例如,解決複雜數學問題時,模型可調用計算器工具完成複雜計算;處理圖像數據時,能調用圖像處理工具進行裁剪、旋轉等操作。這種工具使用能力使模型能應對更復雜的任務場景。

多模態推理能力是o3和o4-mini的另一大亮點。它們能同時處理文本、圖像、音頻等不同模態的數據,並進行有機整合。OpenAI採用創新的神經網絡架構,將圖像和文本數據分別編碼爲統一的特徵表示。對於圖像數據,通過卷積神經網絡提取特徵;對於文本數據,使用Transformer編碼器提取語義信息。然後,通過一個融合模塊將這些不同模態的特徵進行整合,生成統一的特徵表示,實現多模態數據的聯合處理。此外,模型還具備對不同模態數據的動態處理能力,能根據任務需求動態調整處理權重。

微信截圖_20250417075235.png

在訓練方面,OpenAI採用大規模無監督學習和少量監督學習相結合的方式。無監督學習部分,模型通過大量文本和圖像數據進行預訓練,學習語言和圖像的基本特徵和模式;監督學習部分,通過標註數據和工具使用數據對模型進行微調,使其更好地理解和使用工具。

在基準測試中,o3和o4-mini表現出色。在AIME2024測試中,o3準確率爲91.6%,o4-mini爲93.4%;在AIME2025測試中,o3準確率爲88.9%,o4-mini爲92.7%。在編程競賽(Codeforces)測試中,o4-mini達到2719分,位列全球前200名參賽者之列,o3爲2706分。在博士級問題解答GPQA測試中,o3模型準確率達到83%,o4-mini爲81.4%。在多模態任務方面,o3和o4-mini在MMU Math、Vista、Charive和Vstar等多模態基準測試中同樣表現出色。

除常規測試外,OpenAI還分享了一些實際使用測試結果。在科學研究領域,模型能幫助研究人員快速分析實驗數據、查閱文獻並提出新的研究思路;在軟件開發領域,能幫助開發者快速定位和修復代碼中的錯誤。這些實際應用測試結果進一步證明了o3和o4-mini在處理複雜科學問題和實際開發任務中的高效性和巨大潛力。

從今天起,ChatGPT Plus、Pro和Team用戶將在模型選擇器中看到o3、o4-mini和o4-mini-high。ChatGPT Enterprise和Edu用戶將在一週後獲得訪問權限,所有計劃的速率限制與之前的模型保持不變。滿血版o3和o4-mini也通過Chat Completions API和Responses API向開發者開放。Responses API支持推理摘要功能,能在函數調用時保留推理標記以提升性能,並且很快將支持內置工具,包括網頁搜索、文件搜索和代碼解釋器,以增強模型的推理能力。