GLM-5: From Vibe Coding to Agentic Engineering

GLM-5 Team
Zhipu AI & Tsinghua University

A1 主要贡献

本文推出了 GLM-5，这是一个旨在将"氛围编码（vibe coding）"范式转变为"代理工程（agentic engineering）"的下一代基础模型。

核心问题与研究目标：
随着大语言模型（LLM）从被动知识库向主动解决问题的角色转变，特别是在复杂的端到端软件工程任务中，计算成本和现实世界的适应性成为了主要瓶颈。GLM-5 旨在克服这些障碍，在保持长上下文保真度的同时，显著降低训练和推理成本，并提升模型的对齐和自主性。

主要创新点：
1. 架构创新与DSA应用：GLM-5 采用了 DSA (DeepSeek Sparse Attention) 架构，通过动态分配注意力资源，在不牺牲长上下文理解或推理深度的情况下，大幅降低了计算开销。这使得模型参数扩展至 744B，训练 token 预算达到 28.5T。
2. 异步强化学习基础设施：基于 "slime" 框架，构建了新的异步 RL 基础设施。通过将生成与训练解耦，该系统能够进行大规模的代理轨迹探索，消除了同步瓶颈，极大提升了 RL 后训练（Post-Training）的效率。
3. 异步代理 RL 算法：提出了新颖的异步代理 RL 算法，使模型能够从多样化的长视界（long-horizon）交互中持续学习，优化了在动态环境中的规划和自我修正能力。
4. 全栈国产芯片适配：GLM-5 从一开始就针对中国 GPU 生态系统进行了全栈适配，并在七个主流国产芯片平台上完成了从底层内核到上层推理框架的深度优化。

主要成果：
GLM-5 在主要公开基准测试（如 http://ArtificialAnalysis.ai, LMArena Text/Code）中达到了 SOTA 水平。在 Humanity’s Last Exam、SWE-bench Verified 等 8 个代理、推理和编码基准测试中，GLM-5 平均比上一代 GLM-4.7 提升约 20%，不仅超越了 Gemini 3 Pro，还与 Claude Opus 4.5 和 GPT-5.2 (xhigh) 表现相当。特别是在处理端到端软件工程挑战时，展现了超越以往基线的卓越能力。

图1：GLM-5、DeepSeek-V3.2、Claude Opus 4.5、Gemini 3 Pro 和 GPT-5.2 (xhigh) 在 8 个代理、推理和编码基准测试上的结果比较。

图2：Artificial Analysis Intelligence Index v4.0 包含了 10 项评估。GLM-5 得分为 50，是新的开放权重模型领导者。

图3：在 LMArena 上，GLM-5 在文本竞技场和代码竞技场中均为排名第一的开放模型。

图4：几个长视界任务的结果。左：Vending-Bench 2；右：CC-Bench-V2。

A2 方法细节

2. 预训练 (Pre-Training)

与 GLM-4.5 类似，GLM-5 的基础模型经历两个阶段：通用语言和编码能力的预训练，以及针对代理和长上下文能力的中间训练（mid-training）。所有训练阶段的总 token 预算扩展至 28.5 万亿 token。

2.1 架构 (Architecture)

模型规模扩展：GLM-5 扩展至 256 个专家（experts），并将层数减少至 80 层，以最小化专家并行通信的开销。这产生了一个 744B 参数的模型（激活参数 40B），总大小是 GLM-4.5（355B 总参数，32B 激活参数）的两倍。

多潜在注意力 (Multi-latent Attention, MLA)：MLA [24] 通过使用缩减的键值（key-value）向量，在效果上匹配分组查询注意力（GQA），但在长上下文序列处理中提供更优的 GPU 内存节省和更快的处理速度。

Muon Split 优化：在实验中发现，具有 576 维潜在 KV-cache 的 MLA 无法匹配 GQA-8（8个查询组，2048维 KV-cache）的性能。为了弥补这一差距，作者改进了 GLM-4.5 中的 Muon 优化器配方。原配方对多头查询、键、值的上投影矩阵 $W_{UQ}, W_{UK}, W_{UV}$ 应用矩阵正交化。Muon Split 方法将这些矩阵针对不同的头拆分为较小的矩阵，并对这些独立矩阵应用正交化。这使得不同注意力头的投影权重能以不同的尺度更新。如 Table 1 所示，该方法有效地提升了 MLA 的性能以匹配 GQA-8。此外，使用 Muon Split 后，GLM-5 的注意力 logits 规模在预训练期间保持稳定，无需裁剪策略。

MLA-256 解码优化：MLA 的另一个缺点是解码时的计算成本高（576维点积 vs GQA 的 128维）。DeepSeek-V3 根据 H800 的 roofline 选择的注意力头数不适合其他硬件。鉴于 MLA 在训练和预填充时具有多头注意力（MHA）风格，作者将头维度从 192 增加到 256，并将注意力头数量减少 1/3。这在保持训练计算量和参数量不变的同时，减少了解码计算量。Table 1 显示，MLA-256 变体在 Muon Split 下匹配了 MLA 的性能。

参数共享的多 token 预测 (MTP)：多 token 预测（MTP）[13; 25] 可提升基础模型性能并作为推测解码的草稿模型。然而，为了预测接下来的 $n$ 个 token，通常需要 $n$ 个 MTP 层，导致内存使用随推测步数线性增加。DeepSeek-V3 仅训练一个 MTP 层并在推理时预测 2 个 token，但训练与推理的不一致降低了第二个 token 的接受率。GLM-5 提出在训练期间共享 3 个 MTP 层的参数。这保持了草稿模型的内存成本与 DeepSeek-V3 一致，同时提高了接受率。Table 2 显示，在相同的推测步数下，GLM-5 的接受长度优于 DeepSeek-V3.2。

2.1.1 采用 DeepSeek 稀疏注意力 (DSA) 的持续预训练

GLM-5 在训练中使用了 DSA [9]。DSA 的核心理念是用动态、细粒度的选择机制取代传统的密集 $O(L^2)$ 注意力（在 128K 上下文时成本极高）。DSA 能够"看"内容来决定哪些 token 是重要的。为了避免从头训练的高昂成本，DSA 通过"持续预训练（Continued Pre-Training）"从密集基础模型过渡而来。过渡策略分为"密集预热（dense warm-up）"和"稀疏训练适应（sparse training adaptation）"两个阶段。DSA 在长序列上减少了约 1.5-2 倍的注意力计算，这对于处理 128K 上下文的重推理代理至关重要。

DSA 训练始于中间训练结束后的基础模型。预热阶段进行 1000 步，每步训练 14 个序列（202,752 tokens），最大学习率为 5e-3。稀疏适应阶段遵循中间训练的数据和超参数，训练 20B tokens。尽管训练预算远小于 DeepSeek-V3.2，但足以使 DSA 模型适应并匹配原始 MLA 模型的性能。Table 3 显示 DSA 模型在长上下文基准测试上的性能接近 MLA 模型。

2.1.2 高效注意力变体的消融研究

除了 DSA，作者基于 GLM-9B 探索了其他高效注意力机制。基线在所有 40 层采用分组查询注意力。评估方法包括：
* 滑动窗口注意力 (SWA) 交错：在网络中统一应用全注意力和窗口注意力层的固定交替模式。
* Gated DeltaNet (GDN) [54]：一种线性注意力变体。
* 基于搜索的 SWA 模式 (Proposed)：受 PostNAS [15] 启发，引入基于搜索的适应方法来确定 SWA 转换的最佳层子集。使用波束搜索（beam size 8）在 16K 上下文长度下进行搜索，并将结果模式推广到其他长度。Table 4 显示，这种基于搜索的配置显著优于固定交错方法。
* SimpleGDN (Proposed)：一种极简线性化策略，移除了 Conv1d 和显式门控模块，直接映射预训练的 Q、K、V 投影权重，最大化重用预训练权重。

Table 5 的结果显示，朴素的 SWA 交错导致长上下文任务的灾难性退化，而基于搜索的选择大幅缩小了差距。SimpleGDN 在参数效率和性能之间取得了最佳平衡。然而，所有这些方法在细粒度检索任务上都有不可避免的精度损失。相比之下，DSA 通过构造实现了无损：其 lightning indexer 实现了 token 级的稀疏性而不丢弃长距离依赖。

为了验证这一点，作者在 GLM-4.7-Flash3 上进行了小规模 DSA 实验（Table 6）。即使是仅预热变体（只训练索引器）也保留了大部分基线性能；经过 150B token 的联合训练后，GLM-4.7-Flash + DSA 几乎弥合了所有残留差距，并在 16K/32K/64K 上超越了基线。

2.2 预训练数据 (Pre-training Data)

Web 数据：在 GLM-4.5 数据管道基础上，引入了基于句子嵌入的 DCLM [21] 分类器以识别额外的高质量数据。针对长尾知识，利用基于维基百科和 LLM 标记数据优化的 World Knowledge 分类器，从中低质量数据中提取有价值信息。

代码数据：扩展了代码预训练语料库，包含来自主要代码托管平台的最新快照和更多包含代码的网页，去重后唯一 token 增加了 28%。修复了 Software Heritage 代码文件中的元数据对齐问题，并采用了更准确的语言分类管道。为低资源编程语言（如 Scala, Swift, Lua）训练了专用分类器。

数学与科学数据：从网页、书籍和论文中收集高质量数据。改进了网页内容提取管道和 PDF 解析机制。采用 LLM 对候选文档进行评分，仅保留最具教育意义的内容。对于长文档，开发了分块聚合评分算法。严格过滤以避免使用合成或 AI 生成的数据。

2.3 中间训练 (Mid-Training)

扩展上下文和训练规模：GLM-5 在三个阶段逐步扩展上下文窗口：32K (1T tokens), 128K (500B tokens), 和 200K (50B tokens)。新增的 200K 阶段显著提高了处理超长文档和复杂多文件代码库的能力。长文档和合成代理轨迹在后期相应地进行上采样。

软件工程数据：保留了将仓库级代码文件、commit diffs、GitHub issues、PR 和相关源文件连接成统一训练序列的范式。GLM-5 放宽了仓库级过滤标准，产生了约 1000 万个 issue-PR 对，同时加强了 issue 级别的质量过滤。检索了更广泛的相关文件集，issue-PR 部分包含约 160B 唯一 tokens。

长上下文数据：包含自然数据（书籍、论文、文档）和合成数据。合成数据受 NextLong [11] 和 EntropyLong [18] 启发，通过交错打包聚合高度相似的文本以构建长程依赖，旨在缓解"中间丢失（lost-in-the-middle）"现象。在 200K 阶段，还加入了一小部分类似 MRCR 的数据。

2.4 训练基础设施 (Training Infrastructure)

2.4.1 内存效率

灵活的 MTP 放置：MTP 模块跨越嵌入、Transformer 和输出组件，内存占用高。为了平衡阶段级内存，作者将 MTP 输出层与主输出层共置于最后阶段以共享参数，而将其嵌入和 Transformer 组件放置在前一阶段。

Pipeline ZeRO2 梯度分片：受 ZeRO2 [38] 启发，将梯度跨数据并行 rank 进行分片，每个阶段仅存储 1/dp 的全梯度。仅保留两个阶段的全累积缓冲区并通过双缓冲重用，减少了持久梯度内存。

Muon 分布式优化器的零冗余通信：限制 all-gather 操作仅针对每个 rank 拥有的参数分片，并将分片通信与本地计算重叠，消除了冗余通信并减少了优化器峰值内存。

管道激活卸载 (Pipeline activation offloading)：在管道预热期间，将中间激活卸载到主机内存，并在反向传播前重新加载 [58]。配合细粒度重计算，大幅减少了激活内存占用。

序列分块输出投影：为了减少输出投影和交叉熵损失计算的瞬时内存开销，将输入序列划分为较小的块，独立计算投影和损失，从而降低峰值内存使用。

2.4.2 并行效率

高效的延迟权重梯度计算：为了减少管道气泡，推迟关键路径的部分权重梯度计算 [37]。

高效长序列训练：通过工作负载感知的序列重排序、动态注意力计算分配以及将数据并行 rank 灵活划分为不同大小的上下文并行组 [12; 47] 来解决长序列负载不平衡问题。使用分层 all-to-all 重叠 QKV 张量的节点内和节点间通信。

2.4.3 INT4 量化感知训练

在 SFT 阶段应用 INT4 QAT 以提供更好的低精度准确性。开发了适用于训练和离线权重权重量化的量化内核，确保训练和推理之间的逐位一致性。

3. 后训练 (Post-Training)

GLM-5 的后训练旨在将基础模型转化为具有强大推理、编码和代理能力的助手。流程包括：引入交错思维模式的多任务监督微调 (SFT) -> 推理和代理任务的强化学习 (RL) -> 通用 RL -> 在线跨阶段蒸馏 (On-Policy Cross-Stage Distillation)。

3.1 监督微调 (Supervised Fine-Tuning)

GLM-5 显著扩展了 SFT 阶段的 Agent 和 Coding 数据规模。SFT 语料库涵盖通用聊天、推理（数学、编程、科学）和 Coding & Agent。SFT 期间最大上下文长度扩展至 202,752 tokens。

思维特征 (Thinking Characteristics)：
* 交错思维 (Interleaved Thinking)：模型在每次响应和工具调用前进行思考，提高指令遵循和生成质量。
* 保留思维 (Preserved Thinking)：在编码代理场景中，模型自动保留多轮对话中的所有思维块，重用现有推理而不是从头推导。这减少了信息丢失，适合长视界任务。
* 轮次级思维 (Turn-level Thinking)：支持按轮次控制推理——对轻量级请求禁用思考以降低延迟，对复杂任务启用思考。

对于 General Chat，优化了响应风格使其更具逻辑性和简洁性。对于 Reasoning，构建了可验证的问题并使用拒绝采样合成高质量数据。对于 Coding & Agent，构建了大量执行环境以获取高质量轨迹，特别是针对真实世界和长视界任务。

3.2 推理 RL (Reasoning RL)

RL 算法骨干：基于 GRPO [40] 并结合 IcePop [61] 技术以缓解训练-推理不匹配。明确区分训练策略 $\pi_{\text{train}}$ 和推理策略 $\pi_{\text{infer}}$。移除了原始 IcePop 中的 KL 正则化项以加速 RL 改进。最终优化损失为：

其中训练-推理不匹配比率定义为：

操作符 $\text{pop}(\cdot)$ 抑制不匹配比率过大的样本：

PPO 风格的重要性比率和组归一化优势遵循 GRPO 定义：

DSA RL 洞察：DSA 引入了一个索引器来检索 top-k 最相关的 KV 条目。为了确保 RL 稳定性并避免存储所有索引带来的巨大成本，作者发现采用确定性的 top-k 操作符（直接使用 naive torch.topk 而非非确定性的 CUDA 实现）是有效的。这虽然稍慢但确定性强，产生了更一致的输出和实质性的 RL 增益。默认情况下，RL 期间冻结索引器参数。

混合领域推理 RL：在数学、科学、代码和工具集成推理 (TIR) 四个领域进行混合 RL 训练。对数学和科学应用难度过滤。对于代码，涵盖竞赛编程和科学编码任务。对于 TIR，构建了需要外部工具回答的 STEM 问题。

3.3 代理 RL (Agentic RL)

开发了一个完全异步且解耦的 RL 框架来优化编码和搜索代理任务。通过中央多任务 Rollout 编排器（Multi-Task Rollout Orchestrator）解耦推理和训练引擎，解决了长视界代理 rollout 期间的 GPU 空闲问题。为了在异步 off-policy 条件下保持稳定性，引入了 Token-in-Token-out (TITO) 网关以消除重新分词的不匹配，并采用了 Direct Double-sided Importance Sampling（直接双侧重要性采样）。

3.4 通用 RL (General RL)

多维优化目标：
1. 基础正确性：最小化指令遵循失败、逻辑不一致、幻觉等错误。
2. 情商：优化用户体验，使回复具有同理心且自然。
3. 特定任务质量：针对写作、问答等特定任务提升质量。

混合奖励系统：集成了基于规则的奖励函数（精确但有限）、结果奖励模型 (ORMs)（效率高但易被 hack）和生成奖励模型 (GRMs)（鲁棒但方差高）。

人机协同风格对齐：显式引入高质量的人类编写的回复作为风格和质量锚点，以防止模型生成的优化趋向于刻板的"模型化"模式。

3.5 在线跨阶段蒸馏 (On-Policy Cross-Stage Distillation)

为了减轻连续优化不同目标导致的先前能力退化，GLM-5 在最后阶段进行在线跨阶段蒸馏。使用先前训练阶段（推理 RL 和通用 RL）的最终 checkpoint 作为教师模型。训练损失通过替换优势项计算：

目前使用推理引擎获取教师 logits。

3.6 RL 训练基础设施: The slime Framework

扩展性：slime 提供灵活的接口实现特定任务的 rollout 逻辑，并通过 HTTP API 暴露服务，解耦了 rollout 逻辑与训练过程。

缩短长尾延迟：
* 无队列服务：采用多节点推理部署（例如 8 节点上的 EP64 和 DP64）以提供充足的分布式 KV-cache，并引入 DP-attention 防止跨 rank 复制 KV。
* FP8 Rollouts 和 MTP：使用 FP8 推理减少每 token 延迟，利用 MTP 尤其在小 batch 解码下显著减少长尾延迟。
* PD 解耦 (PD disaggregation)：将预填充（Prefill）和解码（Decode）运行在专用资源上，防止重预填充干扰正在进行的解码，显著改善多轮代理 RL 的尾部行为。

健壮性：利用心跳驱动的容错机制，自动将重试路由到健康服务器。

4. 代理工程 (Agentic Engineering)

描述了从 vibe coding（人类提示）到代理工程（AI 代理自己写代码）的转变。

4.1 针对代理任务的异步 RL

采用组级策略优化算法。对于每个问题 $x$，从旧策略 $\pi_{old}$ 采样 $K$ 个轨迹，并优化：

4.1.1 异步 RL 设计

为了解决 rollout 阶段的巨大气泡，采用了完全异步的训练范式，将训练引擎和推理引擎解耦到不同的 GPU 设备上。为了减少策略滞后，推理引擎的模型权重每 $K$ 次梯度更新后与训练引擎同步。

基于服务器的多任务训练设计：引入中央 Multi-Task Rollout Orchestrator。每个任务作为独立的微服务实现其 rollout 和奖励逻辑。所有代理任务的轨迹被标准化为统一的消息列表表示。

4.1.2 优化异步训练稳定性

Token-in-Token-out (TITO) vs. Text-in-Text-out：重新分词会引入 token 边界、截断等微小不匹配，破坏动作与奖励的对齐。TITO 对于异步 RL 至关重要，因为它保留了采样和优化之间的精确动作级对应关系。实现了一个 TITO Gateway 来拦截请求并记录 token ID。

用于 token 裁剪的直接双侧重要性采样：在异步设置中，跟踪精确的行为概率计算成本过高。作者重用 rollout 期间生成的对数概率作为直接行为代理，消除了单独旧策略推理的开销。采用了双侧校准 token 级掩码策略，将信任区域限制在 $[1 - \epsilon_l, 1 + \epsilon_h]$。优化目标为：

重要性采样比率 $r_t(\theta)$ 计算为：

校准函数 $f(x; \epsilon_l, \epsilon_h)$ 为：

丢弃 off-policy 和噪声样本：如果样本的最旧 rollout 版本太陈旧（$w' - w_0 > \tau$），则丢弃该样本。此外，排除因环境崩溃导致失败的样本。

用于加速的 DP 感知路由：引入状态路由层，使用一致性哈希将属于给定代理实例的所有请求路由到相同的 DP rank，最大化 KV 缓存重用。

4.2 代理的环境扩展

4.2.1 软件工程 (SWE) 环境

收集真实的 Issue-PR 对并过滤。基于 RepoLaunch [59] 框架构建环境设置管道，自动分析仓库安装，构建可执行环境，并利用 LLM 提取 Fail-to-Pass (F2P) 和 Pass-to-Pass (P2P) 测试用例。构建了涵盖 9 种编程语言的 10k+ 可验证环境。

4.2.2 终端环境

从种子数据合成：包括任务草稿生成、具体任务实现（由构建代理实例化为 Harbor [42] 格式）和迭代任务优化（由精炼代理检查）。
从 Web 语料库合成：收集代码相关的网页，提示编码代理合成终端任务，并执行 Harbor 验证脚本进行自我验证。

4.2.3 搜索任务

构建了生成多跳 QA 对的数据合成管道。
1. Web 知识图谱 (WKG) 构建：从早期搜索代理轨迹中收集 URL，进行实体识别和关系整合。
2. 高难度问题过滤和验证：移除工具无关模型能回答的问题，移除简单搜索能解决的问题，应用验证代理进行双向验证。

4.2.4 上下文管理的搜索代理推理

Keep-recent-k 策略：当交互历史超过阈值 $k$ 时，折叠旧于最近 $k$ 轮的观察结果。实验设置 $k=5$。
分层上下文管理：结合 Keep-recent 和 Discard-all。如果总上下文长度超过 $T=32k$，则丢弃整个工具调用历史并重新开始，同时继续应用 keep-recent。如图 8 所示，该策略优于仅使用 Discard-all。

4.2.5 幻灯片生成 (Slide Generation)

采用自我改进管道。提出了多级奖励公式：
* Level-1：静态标记属性（位置、颜色等）。
* Level-2：运行时渲染属性（元素宽度、几何布局）。开发了分布式渲染服务以防止 reward hacking（如硬截断内容，见图9）。
* Level-3：视觉感知特征（如留白模式）。

拒绝采样与 Masking-based refinement：采用 Best-of-N 策略进行拒绝采样。引入基于掩码的修正机制，识别有缺陷的页面并进行掩码，保留同轨迹中的高质量内容。

5. 适配 GLM-5 到中国芯片基础设施 (Adapting GLM-5 to Chinese Chip Infrastructure)

在七个主流国产芯片平台（包括华为 Ascend, 摩尔线程, 海光, 寒武纪, 昆仑芯, 燧原, 壁仞）上实现了全栈适配。以 Ascend Atlas 为例：

混合精度 W4A8 量化：为了将 750B 模型放入单个 Atlas 800T A3 节点，标准 Attention 和 MLP 块使用 W8A8 (INT8)，而 MoE 专家压缩至 W4A8 (INT4)。使用了 msModelSlim 工具和高级算法（如 QuaRot）。

高性能融合内核：开发了定制融合内核：Lightning Indexer（集成评分、ReLU、TopK）、Sparse Flash Attention（针对 GLM-5 的稀疏模式优化）和 MLAPO（将 13 个预处理算子融合成一个"超级算子"）。

专用推理引擎优化：适配了 vLLM-Ascend 和 SGLang。实现了异步调度（重叠 D2H 拷贝）、上下文管理（RadixCache）、并行策略（混合 DP 和 EP，FlashComm）和多 token 预测（MTP）。

A4 实验环境

数据集：
- 预训练：DCLM Web 数据、Software Heritage 代码数据、高质量数学/科学论文及书籍。
- 中间训练：1000 万个 GitHub issue-PR 对，长上下文合成数据。
- RL 数据：Mixed domain reasoning RL (Math, Science, Code, TIR)，10K+ 真实世界 SWE 环境，终端任务，多跳搜索任务。
模型架构：
- GLM-5：744B 参数 (40B 激活)，256 专家 (Top-8 路由)，80 层 MoE，MLA (256 head dim)，DSA 注意力，共享参数 MTP。
硬件配置：
- 训练：未明确指定具体集群规模，但提及 H800 roofline 和国产芯片适配。
- 推理适配：Ascend Atlas 800T A3 (单节点 W4A8 量化)。
软件配置：
- 训练框架：Megatron-LM (Pipeline ZeRO2, Muon optimizer)。
- RL 框架：slime (基于服务器的 rollout, 异步训练)。
- 推理引擎：vLLM-Ascend, SGLang, OpenHands (用于 SWE-bench)。

A5 实验结果

ARC 基准测试 (Table 7)：

推理与通用：GLM-5 在 HLE (with tools) 上得分 50.4，超越 Claude Opus 4.5 (43.4) 和 Gemini 3 Pro (45.8)。在 LongBench v2 上得分 64.5，仅次于 Gemini 3 Pro。
编码：在 SWE-bench Verified 上得分 77.8，优于 Gemini 3 Pro，接近 GPT-5.2 (xhigh)。在 SWE-bench Multilingual 上以 73.3 击败 Gemini 3 Pro。在 Terminal-Bench 2.0 上表现与 Claude Opus 4.5 相当。
代理：在 BrowseComp 上得分 62.0 (w/o context manage) 和 75.9 (w/ context manage)，达到 SOTA。在 Vending-Bench 2 上得分 $4,432，位居开源模型第一。

真实世界代理工程体验 (CC-Bench-V2)：
* 前端：GLM-5 实现了 98.0% 的构建成功率 (BSR)，在检查项成功率 (CSR) 上与 Claude Opus 4.5 竞争，但在端到端实例成功率 (ISR) 上仍有差距。
* 后端：GLM-5 (Pass@1 25.8%) 与 Claude Opus 4.5 (26.9%) 表现相当，显著优于 GLM-4.7。
* 长视界：在大型仓库探索任务中，GLM-5 (65.6%) 略优于 Claude Opus 4.5 (64.5%)。在多步链式任务中，GLM-5 (52.3%) 显著提升，但仍落后于 Claude Opus 4.5 (61.6%)。

真实世界通用能力：
在机器翻译 (ZMultiTransBench)、多语言对话 (LMArena, ZMultiDialBench)、指令遵循 (IF-badcase, IFBench) 和工具调用 (ToolCall-Badcase) 等五个领域，GLM-5 均比 GLM-4.7 有一致且显著的提升 (Figure 11)。

A6 结论

GLM-5 标志着从"氛围编码"向真正的"代理工程"的过渡，弥合了高性能推理与极致计算效率之间的差距。通过引入 DSA 架构和先进的异步 RL 基础设施，GLM-5 证明了开放权重模型可以在复杂的真实世界工作流中与顶级专有系统相抗衡。团队将 GLM-5 开源，旨在赋能社区超越静态基准测试，探索高效、代理式通用智能的前沿，推动 AI 代理自主规划、实施和迭代复杂任务的新时代。

A7 补充细节

8. 彩蛋 (Easter Eggs)

"Pony Alpha" 实验：团队曾在 OpenRouter 上匿名发布了 GLM-5（代号 "Pony Alpha"）。该模型迅速引发轰动，凭借在编码、代理工作流和角色扮演方面的卓越表现，被社区广泛猜测为 Claude Sonnet 5、Grok 或 DeepSeek V4。这一实验验证了 GLM-5 的工程级可靠性，并打破了地缘政治偏见，证明了中国 LLM 能够在前沿水平上竞争。

A. 超参数 (Hyper-Parameters)

GLM-5 架构参数：Hidden Dim 6144, QK Head Dim 192, V Head Dim 256, Attention Heads 64, Experts 256 (Routed 8)。训练时学习率从 0 预热至 2e-4，预训练结束衰减至 4e-5。中间训练线性衰减至 1e-5。

PaperCache

GLM-5: From Vibe Coding to Agentic Engineering

GLM-5: From Vibe Coding to Agentic Engineering

A1 主要贡献

A2 方法细节