OpenAI正式發佈全新基礎模型GPT-5.4,旨在打造目前功能最強且效率最高的專業工作前沿模型。據 AIbase 報道,該系列此次採取了差異化發佈策略,除標準版外,同步推出專注於複雜邏輯的推理模型 GPT-5.4Thinking,以及針對高性能需求優化的 GPT-5.4Pro

ChatGPT

技術層面,GPT-5.4的 API 版本實現了飛躍,提供高達 100萬個標記(Tokens)的上下文窗口,爲 OpenAI 史上之最。與此同時,該模型顯著提升了令牌效率,能以更少的資源消耗解決同類問題。

在安全性與準確性上,新模型較 GPT-5.2的單個陳述錯誤率降低了33%,整體回覆錯誤率下降18%。此外,針對推理模型可能存在的“思維鏈欺騙”風險,OpenAI引入了全新的安全評估系統,測試表明GPT-5.4Thinking具備更高的透明度,難以隱藏或僞造其推理過程。

在實測基準測試中,GPT-5.4表現強勁,不僅在 OSWorld-Verified 和 WebArena Verified 等計算機使用測試中刷新紀錄,更在知識工作任務 GDPval 測試中取得83% 的創紀錄高分

Mercor 首席執行官 Brendan Foody 指出,該模型在金融、法律等專業領域的APEX-Agents基準測試中同樣處於領先地位,尤其擅長生成財務模型、法律分析等長期交付成果。配合全新的“工具搜索”系統,模型在調用外部工具時更具效率,大幅降低了大規模工具集成下的令牌損耗。