据AIbase报道,今天凌晨,智谱AI正式宣布开源其最新“混合思考”模型——GLM-4.7-Flash。作为30B规格中的最强竞争者,该模型在保持轻量化部署优势的同时,凭借卓越的推理与编码能力,成功登顶同类规格模型的性能榜首。

性能领跑:30B级别的“全能王者”
GLM-4.7-Flash 采用了 30B-A3B MoE(混合专家)架构。这意味着其总参数量为300亿,但实际处理任务时仅需激活约30亿精锐参数。这种设计使其在资源占用与处理能力之间找到了完美平衡点。
在多项严苛的基准测试中,GLM-4.7-Flash 的表现令人瞩目,全面超越了阿里的 Qwen3-30B-A3B-Thinking-2507 以及 OpenAI 的 GPT-OSS-20B:
软件工程(SWE-bench Verified): 达到 59.2分,展现出顶尖的代码修复能力。
数学与推理: AIME25斩获 91.6分,GPQA(专家级问答)达 75.2分。
工具协作: τ²-Bench 达到 79.5分,BrowseComp 为 42.8分,在智能体(Agent)场景下极具竞争力。
开发者友好:灵活的本地化部署
该模型主打轻量化与实用性,特别适合本地或私有云环境下的智能体应用。为确保性能稳定释放,GLM-4.7-Flash 已获得主流推理框架的支持:
vLLM 与 SGLang: 均已在 main 分支提供支持。使用 vLLM 时,开发者可通过
tensor-parallel-size和speculative-config等参数优化并发与解码速度;SGLang 则支持使用 EAGLE 算法进一步提升推理效率。Hugging Face: 支持直接通过
transformers库调用,降低了快速实验与集成的门槛。
市场反馈:不牺牲轻便的性能跃迁
行业社区对该版本的发布反响热烈。网友普遍认为,GLM-4.7-Flash 在不增加硬件负担的前提下,显著提升了实际任务中的“体感速度”。一位开发者评价道:“它在编码和工具调用上的表现让本地AI助手变得真正好用,这种性能与效率的平衡正是我们需要的。”
开源地址:https://huggingface.co/zai-org/GLM-4.7-Flash
