在北京智譜華章科技有限公司的年度收官之際,公司發佈了其首個基於擴展強化學習技術訓練的推理模型——GLM-Zero的初代版本GLM-Zero-Preview。這款模型專注於提升人工智能的推理能力,尤其在數理邏輯、代碼編寫以及需要深度推理的複雜問題處理方面表現出色。與基座模型相比,GLM-Zero-Preview在保持通用任務能力的同時,專家任務能力得到了顯著提升,其在AIME2024、MATH500和LiveCodeBench評測中的表現與OpenAI o1-preview相當。
用戶現在可以在智譜清言平臺的“Zero推理模型”智能體中免費體驗GLM-Zero-Preview,該平臺支持文字和圖片上傳,模型將輸出完整的推理過程。同時,開發者也可以通過智譜開放平臺的API調用此模型。

儘管GLM-Zero-Preview與OpenAI的o3模型還存在一定差距,但智譜華章科技有限公司計劃持續優化迭代強化學習技術,並即將推出正式版GLM-Zero,將深度思考的能力從數理邏輯擴展到更多通用技術領域。
在模型表現方面,GLM-Zero-Preview展現了強化學習在增強模型深度推理能力方面的重要性。隨着訓練量的增加,模型在深度推理等方面的效果穩步提升。模型在推理階段的scaling law也得到了驗證,即隨着模型可以思考的token數變多以及更多的計算量,模型給出的結果質量也穩步提升。GLM-Zero-Preview能夠實現推理過程中自主決策、問題拆解和嘗試多種方式解決問題,這與人類的思考決策過程類似。
在實測案例中,GLM-Zero-Preview在邏輯推理方面表現出識別邏輯漏洞和模擬多種假設的能力。在數學方面,該模型具有強大的歸納與演繹能力,能夠快速處理複雜的數學運算,並在2025年考研數學一的測試中達到優秀研究生水平。在編程方面,GLM-Zero-Preview能夠熟練使用多種編程語言,並幫助開發者快速編寫代碼。
智譜清言:
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
智譜開放平臺:
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview
