國內知名人工智能團隊智譜今日正式宣佈,面向部分企業客戶推出全新的 GLM-5.1 高速版 API。這款代號爲“GLM-5.1-highspeed”的模型一經發布便震撼業界,其輸出速度成功達到了驚人的 400 tokens/s。
這一數據直接刷新了當前全球大模型廠商的 API 速度上限,展現出極強的技術統治力。在過去的人工智能行業認知中,模型的運行速度與體積往往不可兼得,高速度通常意味着需要犧牲模型的能力。
打破行業慣例兼顧旗艦性能
然而,GLM-5.1 高速版徹底打破了“快等於小”的行業慣例。該模型首次在國產大模型中實現了突破,成功將旗艦級的技術能力與極低的延遲體驗同時帶入到了實際生產環境中。
據悉,該模型由智譜 GLM 團隊與 TileRT 團隊聯合打造。雙方通過拋棄傳統的動態調度,在推理引擎、調度系統以及底層基礎設施三個層面進行了深度且徹底的系統級優化。
三大層面優化確保穩定輸出
在技術細節上,研發團隊不僅針對模型架構重寫了核心推理路徑以提升單卡吞吐,還通過動態批處理等手段降低了高併發場景下的延遲。同時,圍繞基礎設施的協同優化,確保了 400 TPS 成爲穩定可用的生產級能力。
這款高速模型擁有極其廣泛的應用前景,特別適用於對響應延遲要求嚴苛的場景。無論是 AI 編程、實時語音交互,還是高頻的商業決策,該模型目前均已在智譜 MaaS 平臺面向部分企業開放服務。
