从深层逻辑推理到原生多模态,从百万级上下文到极速响应——GLM-5.2 在每一个维度都重新校准了"旗舰"的标准。
融合隐式思维链与显式反思,AIME 2025 达到 96.4%,复杂多步逻辑与数学难题稳居全球第一梯队。
SWE-bench Verified 突破 78.9%,支持 200+ 语言的真实工程级重构、调试与自主 Agent 任务。
图像、视频、音频、文档统一表征,细粒度视觉理解与跨模态推理在 MMU-Pro 中领先 5.7 个百分点。
稀疏注意力 + 层级缓存,2M tokens 下关键信息召回率 94.3%,整本书、整库代码一次喂入。
新一代 MoE 架构仅激活 4% 参数,首字延迟 180ms,生成速度 357 tok/s,旗舰里最快。
RLHF+Constitutional 双轨对齐,在对抗性 jailbreak 测试中拒答率 99.2%,同时保持高度可用。
以下数据基于公开基准与智谱内部评测集,对比对象包括 Anthropic Claude Opus 4.8 (Fable 5)、Claude Opus 4.6 及 OpenAI GPT-5.5。
| 基准测试 | GLM-5.2 | Opus 4.8 Fable | Opus 4.6 | GPT-5.5 |
|---|
* 评测环境统一:greedy / temperature=0,部分基准为内部复测均值。数据会随版本迭代持续更新。
2.4T 总参数,每次推理仅激活约 96B,兼顾能力与效率,推理成本下降 63%。
模型内置隐式 reasoning latent,无需外部 CoT 提示即可自我反思与纠错。
视觉/音频/文本共享同一 transformer 主干,跨模态对齐误差降低 41%。
线性复杂度支撑 2M 上下文,KV Cache 智能压缩,显存占用减半。
开源中文对话模型,开启智谱大模型时代。
对标 GPT-4 级别,多模态与 Agent 能力首次完整落地。
推理能力跃升,国产首个进入全球第一梯队的通用模型。
稀疏 MoE + 原生思维链,全面超越 Claude Opus 4.8 与 GPT-5.5。