Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
发表时间: 2026-06 · Tech report by NVIDIA (research.nvidia.com)
NVIDIA
A1 主要贡献
我们推出了 Nemotron 3 Ultra,这是一个拥有 5500 亿总参数和 550 亿活跃参数的混合专家(Mixture-of-Experts)混合 Mamba-Attention 语言模型。随着大型语言模型(LLM)应用从简单的聊天机器人演变为能够自主编写代码、进行研究和完成复杂任务的长期运行代理,提供快速高效的推理能力变得日益重要。Nemotron 3 Ultra 通过采用混合专家(MoE)混合 Mamba-Attention 架构来应对这一挑战,从而在推理吞吐量与准确率的前沿取得了进步。其中,混合专家(MoE)帮助 Nemotron 3 Ultra 在每个活跃参数上实现了更高的准确率,而混合 Mamba-Attention 架构则通过降低注意力成本和 KV 缓存占用,显著提高了推理吞吐量。在 8K 输入/64K 输出的设置下,Nemotron 3 Ultra 的推理吞吐量分别比 GLM-5.1-754B-A40B、Kimi-K2.6-1T-A32B 和 Qwen-3.5-397B-17B 高出 5.9 倍、4.8 倍和 1.6 倍,同时在一系列代理和推理基准测试中达到了同等的准确率。
图 1 | Nemotron 3 Ultra 的准确率和吞吐量比较。我们的模型在达到与其他开放 LLM 相当的准确率的同时,在 8K 输入 / 64K 输出 token 设置下实现了显著更高的推理吞吐量。所有吞吐量数据均在 GB200 上使用 NVFP4 精度在最大吞吐量下报告。Nemotron 3 Ultra 的吞吐量数据来自 TRT-LLM,而所有其他模型的数据使用 vLLM。我们在可用时运行带和不带推测解码的版本,并为每个模型选择最佳数据。
我们利用 Nemotron 3 的所有关键特性和技术(【15,Nvidia nemotron 3: Efficient and open intelligence,2025】)对 Nemotron 3 Ultra 550B-A55B 基础模型进行了预训练,这些技术包括 NVFP4 预训练、LatentMoE(【34,LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts,2026】)和多词元预测(MTP)(【42,Better & Faster Large Language Models via Multi-token Prediction,2024】)。我们使用 Warmup-Stable-Decay 学习率调度,在 20 万亿文本词元上以 NVFP4 格式预训练了我们的基础模型。预训练分为两个阶段:第一阶段使用 15 万亿词元的数据,侧重于多样性和广泛的领域覆盖;第二阶段使用 5 万亿词元的高质量数据,以提升模型准确率。LatentMoE 帮助我们实现了比标准 Granular MoE(【21,DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models,2024】)更高的每参数准确率,而多词元预测(MTP)则通过推测解码带来了更快的推理速度。我们的预训练基础模型在准确率上显著优于其他公开可用的基础模型,如 DeepSeek v3.2(【22,Deepseek-v3.2-exp: Boosting long-context efficiency with deepseek sparse attention,2025a】)、Mistral Large 3、Kimi-K2(【107,Kimi K2: Open Agentic Intelligence,2025】)和 GLM-4.5(【40,GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models,2025】)。
我们使用以代理为中心的后训练流程来训练 Nemotron 3 Ultra,以提升其长程推理、工具使用和自主任务完成能力。初始的监督微调(SFT)阶段使用精心策划的数据混合来构建模型的基础能力。随后,在广泛的推理、代理、代码、安全、可用性和聊天环境中进行统一的 RLVR(带可验证奖励的强化学习)。同时,我们使用有针对性的方法训练了十多个领域专业化的教师模型,包括基于专用代理 SFT 路径构建的代理教师模型。最后,通过多教师在线策略蒸馏(MOPD),在学生生成的序列上进行密集的词元级指导,将这些教师模型的能力整合到 Ultra 中。Ultra 还配备了推理努力控制功能,支持在推理时调整准确率与计算成本的权衡。
我们将在 HuggingFace 上发布基础模型、后训练模型和 NVFP4 量化模型的检查点。同时,我们还将开源训练方案、数据和 RL 环境。
发布的检查点包括:
* Nemotron 3 Ultra 550B-A55B NVFP4:经过后训练和 NVFP4 量化的模型
* Nemotron 3 Ultra 550B-A55B BF16:后训练模型
* Nemotron 3 Ultra 550B-A55B Base BF16:基础模型
* Nemotron 3 Ultra 550B-A55B GenRM:用于 RLHF 的 GenRM
发布的数据集包括:
* Nemotron-Pretraining-Code-v3:截至 2025 年 9 月 30 日,来自 GitHub 的 1730 亿词元的新代码数据。
* Nemotron-Pretraining-Legal-v1:一系列旨在提升 LLM 法律能力的合成数据集。
* Nemotron-Pretraining-Specialized-v1.2:一系列旨在提升 LLM 在事实回忆、道德场景以及多样化生成和多项选择题方面能力的合成数据集。
* Nemotron-Posttraining-v3:一系列用于在 SFT 和 RL 期间提升代理、推理和通用模型能力的后训练数据集。
A2 方法细节
2. 预训练
本节详细介绍 Nemotron 3 Ultra 的预训练过程,包括其架构、NVFP4 预训练配方、数据、超参数,以及长上下文扩展阶段、模型训练不稳定性和基准测试准确率。
2.1. 模型架构
架构继承与扩展。Nemotron 3 Ultra 采用了与 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)相同的混合 Mamba-Attention 混合专家(MoE)架构,并将其扩展至 5500 亿总参数,每词元激活 550 亿参数。与 Nemotron 3 Super 一样,我们在 MoE 层中利用了 LatentMoE(【34,LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts,2026】),并在预训练期间使用两个头部的原生多词元预测(MTP)来加速推理。两个 MTP 头部共享相同的参数,以实现稳健的自回归草稿生成,如 NVIDIA(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)所述。每个 MTP 头部由一个注意力层和一个 MoE 层组成。Nemotron 3 Ultra 的层模式和配置分别如图 2 和表 1 所示。
图 2 | Nemotron 3 Ultra 层模式。与 Nemotron 3 Super 类似,我们使用混合 Mamba-Attention 架构,并利用 LatentMoE 层进行稀疏扩展。
2.2. NVFP4 预训练
NVFP4 训练配方。我们使用与 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)相同的 NVFP4 预训练配方来训练 Nemotron 3 Ultra,利用了 Transformer 引擎开源的 cuBLAS NVFP4 GEMM 内核进行前向传播(fprop)、数据梯度(dgrad)和权重梯度(wgrad)计算。NVFP4 层使用 E2M1 数据类型,对权重采用二维块量化,对 wgrad 的输入采用随机哈达玛变换(Random Hadamard Transforms),并对梯度采用随机舍入(【83,Pretraining Large Language Models with NVFP4,2025f】)。我们遵循 NVIDIA(【80,NVIDIA Nemotron 3: Efficient and Open Intelligence,2025c】、【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)的做法,将网络最后 15% 的层(16 层)、Mamba 输出投影、潜在投影、QKV 和注意力投影、MTP 层以及嵌入层保持在更高的精度。据我们所知,这是迄今为止最大规模的稳定且准确的 NVFP4 训练演示。
训练健康状况监测。为了监控训练健康状况,我们在 5T、10T 和 16T 词元处的检查点分支出消融实验,将所有张量切换到 BF16,并继续预训练 740 亿词元。我们追踪了 BF16 片段与 Nemotron 3 Ultra (NVFP4) 之间训练损失的相对差异。正如先前工作所见(【83,Pretraining Large Language Models with NVFP4,2025f】),将所有张量切换到 BF16 能显著恢复高精度损失,为高精度训练提供了一个代理指标。这三个对 Nemotron 3 Ultra 的消融研究显示,与 BF16 片段相比,相对训练损失差距平均低于 0.4%(图 3,上部),这低于在较小模型变体上观察到的 NVFP4 与 BF16 的训练损失差距(【80,NVIDIA Nemotron 3: Efficient and Open Intelligence,2025c】)。在 BF16 训练的前 50 亿词元中,从 5T、10T 和 16T 检查点开始的相对训练损失差距分别为 0.27%、0.28% 和 0.25%。经过 740 亿词元的 BF16 训练后,从 5T 和 10T 检查点开始的相对训练损失差距增加到 0.33% 和 0.34%,而从 16T 检查点开始的差距则减少到 0.03%(以最后 50 亿词元的平均值计算)。将所有张量切换到 BF16 并未解决 2.7 节中讨论的训练发散问题(图 3,底部)。
表 1 | Nemotron 3 Ultra 架构维度。
2.3. 预训练数据
数据更新概述。本节描述了自 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)以来我们添加到预训练中的新数据。我们将在 HuggingFace 上发布这些新数据集。
2.3.1. 代码刷新
GitHub 代码数据更新。我们刷新了来自 GitHub 的原始源代码数据,新增了 1730 亿个新词元,数据截止日期为 2025 年 9 月 30 日。
图 3 | 顶部:分别从 5T、10T、16T 词元检查点开始,将所有张量切换为 BF16 的消融研究,显示为 NVFP4 和 BF16 之间训练损失的相对百分比差异。每个消融研究的初始损失差距在 0.28% 以内。经过 74B 词元的 BF16 训练后,从 5T 和 10T 检查点开始的损失差距增加到 0.33% 和 0.34%,从 16T 检查点开始的损失差距减少到 0.03%。底部:从 16T 词元检查点开始的更长时间的 BF16 训练。原始训练损失显示 BF16 和 NVFP4 模型的发散模式相似。训练损失的相对差异(%)在训练发散期间趋于零。将所有张量切换为 BF16 并未解决训练发散问题。
2.3.2. Nemotron-Pretraining-Multiple-Choice 和 Nemotron-Pretraining-Generative
大规模合成问答数据生成。我们从许多公共数据集的训练集中生成了大规模、任务种子化的合成问答(Q&A)数据,这些数据集涵盖了广泛的领域,包括 STEM、事实知识、常识推理、逻辑推理、数学、代码、阅读理解和多语言问答。我们没有使用保留的测试集进行数据生成。源基准测试的训练样本被用作种子,以捕捉任务结构、领域、难度和答案格式,而生成的样本则是全新合成的,旨在保留所测试的底层能力,而不是复现评估实例。
数据集组织与质量控制。我们将生成的数据组织成两个数据集系列:Nemotron-Pretraining-Multiple-Choice,包含带答案选项和标准化正确答案的合成问题;以及 Nemotron-Pretraining-Generative,包含带自由格式答案的开放式问答样本。对于这两种格式,我们都生成了富含答案的样本,在适当时包含与任务相关的知识、推理或解释性背景。我们应用了格式检查、模式验证、去重和特定任务的过滤来提高数据质量。这些数据集旨在通过在预训练期间让模型接触多样的任务格式、推理模式和知识领域,来促进跨任务的能力迁移。
数据质量验证。为了验证这些数据的质量,我们对一个 Nemotron 系列的基础检查点进行了 1000 亿词元的第三阶段持续预训练消融实验。添加面向基准测试的合成数据后,MMLU-Pro 从 64.8 提高到 66.6,平均代码能力从 73.2 提高到 75.1,常识理解从 72.9 提高到 74.5,GPQA 从 30.8 提高到 41.9,而平均数学能力保持稳定(从 87.6 到 87.9)。
2.3.3. Nemotron-Pretraining-Fact-Seeking
事实寻求问题生成。该数据集包含从 Finewiki(【94,Finewiki,2025】)生成的事实寻求问题。我们分两个阶段生成问题:首先从 Finewiki 文章中提取信息丰富的事实性陈述,然后用每个陈述及其原始上下文提示 Qwen3-30B-A3B-Instruct-2507 生成简答题或多选题。
数据有效性验证。为了验证数据的有效性,我们使用 Nemotron 3 Nano 预训练的一个中间检查点进行了消融研究。我们在训练的最后 1000 亿词元中注入了事实寻求数据,使得 SimpleQA 的准确率从 40.24 提高到 50.16。由于我们将 SimpleQA 问题转换为多选格式以便于评估,这些分数不能与原始 SimpleQA 分数直接比较。
2.3.4. Nemotron-Pretraining-Moral-Scenarios
道德场景思维链数据。在我们之前发布的 SFT 数据中,我们包含了关于道德场景的多项选择题。这些问题是使用 Moral Stories(【35,Moral stories: Situated reasoning about norms, intents, actions, and their consequences,2021】)中的情境和规范以及 Social Chemistry(【38,Social chemistry 101: Learning to reason about social and moral norms,2020】)中的行为构建的。在这项工作中,我们对这些样本进行了子集抽样,并使用 Qwen3-235B-A22B-Thinking-2507 创建了一个思维链(chain-of-thought)版本。
2.3.5. Nemotron-Pretraining-Legal
法律领域数据集策划。我们策划并生成了一系列针对法律领域的数据集,具体如下:
* 从 HTML 文件中提取的数据集
* Nemotron-Pretraining-Legal-California-Code-Of-Regulations:加州法规法典,不包括第 6 章和第 24 章。
* Nemotron-Pretraining-Legal-NYCourts-Judicial-Ethics-Opinions:纽约法院司法道德意见。
* Nemotron-Pretraining-Legal-eCFR:联邦法规法典。
-
经 LLM 清理的数据集
- Nemotron-Pretraining-Legal-Case-Law-Summary:使用 Qwen3-235B-A22B-Instruct-2507 从过滤版的 Caselaw 数据集生成了 540 万份摘要。
-
重新格式化的数据集
- Nemotron-Pretraining-Legal-CaseHOLD:我们将 CaseHOLD 数据集转换为多选题格式。
- Nemotron-Pretraining-Legal-Contract-NLI:对于 ContractNLI 数据集中的每个保密协议,我们提取了标注的假设、答案和证据陈述,并将其附加到源文档中。
-
合成数据集
- Nemotron-Pretraining-Legal-Canadian-Case-Law-Outcome:我们使用 Qwen3-235B-A22B-Instruct-2507 从加拿大判例法数据集的 CHRT、RPD、RAD 和 RLLR 子集中识别出明确说明上诉结果(批准、驳回或其他)的段落,以及不包含结果的随机段落。
- Nemotron-Pretraining-Legal-Definition-Classification:我们使用 Qwen3-235B-A22B-Instruct-2507 从 Caselaw 中提取包含定义性语言的段落作为正例,并随机选择不含定义性语言的段落作为负例。我们用这些段落构建问题,以分类司法意见中的文本是否定义了一个术语。
- Nemotron-Pretraining-Legal-Diversity-Jurisdiction:该数据集包含询问原告和被告之间是否存在完全多样性管辖权的问题。这些问题是使用模板生成的,模板中使用了从 Nemotron Persona 中随机抽样的人名,以及从两个预定义列表中抽样的州和诉讼因由。我们还使用 Qwen3-235B-A22B-Instruct-2507 对问题进行改写以增加多样性。
- Nemotron-Pretraining-Legal-Function-Of-Decision:我们从 Caselaw 文档中随机抽样段落,并提示 Qwen3-235B-A22B-Instruct-2507 将其功能分为 7 个预定义类别(事实、程序历史、问题、规则、分析、结论、法令)。我们进一步平衡了每个类别的样本数量。
- Nemotron-Pretraining-Legal-GlobalCit:该数据集包含与全球国籍法相关的问题,这些问题是根据 GLOBALCIT 数据集及其代码手册转换而来的。我们使用 Qwen3-235B-A22B-Instruct-2507 将每个问题改写成三个不同版本。
- Nemotron-Pretraining-Legal-LegalBench-CUAD-v2:该数据集包含询问合同中的条款是否属于合同理解阿提卡斯数据集(CUAD)中定义的特定类型条款的问题。我们使用 Qwen3-235B-A22B-Instruct-2507 清理了短于 8k 词元的原始 CUAD 合同,从每个合同中提取了每种类型的第一个合格条款,并从每个提取的条款中生成了一个反例。对于某些识别准确率较低的类别,我们根据标签手册编写了包含详细说明的更长提示来提取合格条款。
- Nemotron-Pretraining-Legal-ToS-Clause-Understanding:该数据集包含服务条款条款理解问题。我们使用 Qwen3-235B-A22B-Instruct-2507 从 TOS 数据集中的每个条款生成一个相关的法律问题。
- Nemotron-Pretraining-Legal-ToSDR-QA:该数据集包含“是/否”问题,这些问题使用 Qwen3-235B-A22B-Instruct-2507 针对 ToSDR 服务条款语料库中每个合同所涵盖的不同部分或问题。
- Nemotron-Pretraining-Legal-eCFR-QA:该数据集包含从联邦法规法典生成的类 DiverseQA 数据。我们从 CFR 摘录中生成了各种问题,并使用 Qwen3-235B-A22B-Instruct-2507 评估每个答案的正确性。
法律数据有效性验证。我们使用 Nemotron 3 Nano 预训练的一个中间检查点(一个拥有 300 亿总参数和 30 亿活跃参数的 MoE 模型)进行了消融研究。从一个 14.9T 词元的检查点开始,我们使用第二阶段的混合数据额外训练了 1000 亿词元,并在 LegalBench 的 100 多个子任务上评估了模型。实验结果表明,这些特定于法律的数据集显著提高了我们模型在多个类别的 LegalBench 任务上的准确率,将平均准确率从 64.6 提升到 74.7。
2.3.6. 数据混合与排序
数据混合策略。用于训练 Nemotron 3 Ultra 的数据混合是对训练 Nemotron 3 Super 和 Nano(【79,Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning,2025b】、【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)所用数据混合的改编,并加入了新的和刷新的数据集。我们遵循 Feng 等人(【36,Maximize Your Data’s Potential: Enhancing LLM Accuracy with Two-Phase Pretraining,2024】)的方法,设计数据混合以平衡多样性和质量。我们采用其提出的两阶段课程,从偏向数据集多样性的数据混合(第一阶段)过渡到偏向数据集质量的数据混合(第二阶段)。这一过渡发生在约 15 万亿词元之后,对应于约 75% 的预训练过程。我们在图 4 中展示了第一阶段和第二阶段数据混合的高层次分解。关于质量估计和数据集组成的更多细节,可在 Feng 等人(【36,Maximize Your Data’s Potential: Enhancing LLM Accuracy with Two-Phase Pretraining,2024】)以及 Nemotron 3 Super 和 Nano 的报告(【79,Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning,2025b】、【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中找到。
预训练语料库组成。预训练语料库在两种数据混合中涵盖了 19 个高层次类别。最大的组成部分是经过质量过滤和合成的网络爬取数据,占第一阶段词元的约 49% 和第二阶段词元的约 38%,包括:crawl-medium、crawl-medium-high、crawl-high、syncrawl-medium 和 syn-crawl-high。其他类别包括 finepdfs(【57,Finepdfs,2025】),我们对其进行质量过滤并加权以包含在第二阶段;数学数据(【72,Nemotron-cc-math: A 133 billion-token-scale high quality math pretraining dataset,2025】;【5,Mind: Math informed synthetic dialogues for pretraining llms,2025】);代码数据;Nemotron-CC-Code;维基百科;学术文本;法律数据;涵盖 11 种语言(阿拉伯语、中文、法语、德语、希伯来语、印地语、意大利语、日语、韩语、葡萄牙语、西班牙语)的多语言数据;Crawl++;以及合成的 SFT 风格数据。Crawl++ 包括 OpenWebText、BigScience(【58,The bigscience roots corpus: A 1.6tb composite multilingual dataset,2023】)和 Reddit 数据集。根据 Akter 等人(【6,Front-loading reasoning: The synergy between pretraining and post-training data,2026】)的研究,我们包含了 SFT 风格的数据,并将其细分为 sft-code、sft-stem 和 sft-general,因为他们证明了其有效性。
2.4. 超参数
训练超参数调整。我们沿用了与 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)相同的训练配方和超参数,但做了一些调整:对于 Nemotron 3 Ultra,我们在总共 20 万亿词元的训练范围内使用了 Warmup-Stable-Decay (WSD) 学习率调度。我们将学习率在 2000 亿词元内预热至峰值 2.5 × 10⁻⁴。在最后的 5 万亿词元中,我们根据负平方根衰减调度将学习率衰减至最低值 2.5 × 10⁻⁶。与 Nemotron 3 Super 一样,我们在整个预训练过程中使用离线检查点合并进行评估分析(【111,WSM: Decay-free learning rate schedule via checkpoint merging for LLM pre-training,2025】),合并窗口大小为 5000 亿词元,检查点间隔为 250 亿词元,并根据我们的学习率衰减调度进行加权。在预训练结束时,最终的检查点选择是在使用不同合并设置创建的大量检查点合并中进行的:变化的已见词元数、从 1250 亿到 1 万亿词元的合并窗口,以及使用顺序、随机和反向排序。一个在知识、数学和代码之间表现出均衡权衡的 5000 亿词元合并窗口检查点被选用于长上下文阶段。我们使用的 MTP 损失缩放因子为 0.1。所有其他超参数与 Nemotron 3 Super 保持一致。
图 4 | 两个预训练阶段的数据混合。我们设计第一阶段的数据混合偏向多样性,第二阶段的数据混合偏向质量。
2.5. 长上下文扩展
长上下文阶段(LC-Phase)。与 Nemotron 3 Super & Nano 类似,我们在预训练结束时增加了一个长上下文阶段(LC-Phase)。在 LC-Phase 中,我们进行了持续预训练(CPT)来赋予基础模型长上下文能力。我们使用了 2.5 * 10⁻⁶ 的恒定学习率。我们在 GB200 GPU 上使用 32 路上下文并行、8 路张量并行、128 路专家并行和 2 路流水线并行进行训练。
数据与训练策略。除了我们在 Nemotron 3 Super & Nano 中使用的长上下文文档问答数据外,我们还向混合数据中添加了长上下文 SFT 风格的数据。我们没有在混合数据中使用任何 RULER 风格的数据。总体而言,混合数据中长上下文数据占 46%,第二阶段数据占 54%。我们在 92% 的迭代中对 1,048,576(1M)的上下文长度进行了 CPT,而在剩余 8% 的时间里,我们对 4,096(4K)的长度进行训练,以保持短基准测试的准确性。需要注意的是,每次迭代都只使用 1M 或 4K 的长度进行训练,我们没有在一次迭代中混合序列长度。每次迭代我们都持续训练 25,165,824 个词元。我们只将数学和代码 SFT 风格的数据放入 4K 的迭代中,因为我们发现这在保持短基准测试指标的同时,能够实现强大的长上下文 RULER 分数。最终,LC-Phase 训练了 330 亿个词元。
2.6. 基础模型评估
评估工具与设置。除非另有说明,Nemotron 3 Ultra 550B-A55B Base 报告的所有评估结果均通过 Nemo Evaluator SDK 和 NVIDIA 的开源 LM Evaluation Harness 容器收集。为保证可复现性,有关评估设置的更多细节可在 Nemo Evaluator SDK 示例文件夹中找到。用于评估的通过 NVIDIA Nemo Evaluator SDK 打包的开源 LM Evaluation Harness 容器可在此处找到。该容器基于 LM Evaluation Harness 构建,评估设置如下:
评估基准与指标。
- 通用知识:我们评估 MMLU(【44,Measuring Massive Multitask Language Understanding,2021】)、MMLU-Pro、AGIEval-En 和 GPQA。我们根据表 2 中所示的特定基准评估协议报告精确匹配或准确率指标。缺失的条目表示在比较集中没有相应的结果。
- 数学推理:我们评估 GSM8K(【19,Training Verifiers to Solve Math Word Problems,2021】),采用 8-shot 思维链精确匹配;以及 Minerva Math,采用 4-shot 精确匹配。
- 代码任务:我们使用 EvalPlus-sanitized 变体(【67,Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation,2023】)评估 HumanEval(【16,Evaluating Large Language Models Trained on Code,2021】)和 MBPP(【8,Program Synthesis with Large Language Models,2021】)。我们报告从每个提示的 32 次生成中估计的采样 pass@1,适用于 HumanEval 和 MBPP-Sanitized(若可用)。
- 常识推理:我们报告 ARC-Challenge(【18,Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge,2018】)、OpenBookQA(【74,Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering,2018】)、PIQA(【14,PIQA: Reasoning about Physical Commonsense in Natural Language,2019】)、HellaSwag(【142,HellaSwag: Can a Machine Really Finish Your Sentence?,2019】)和 WinoGrande(【99,WinoGrande: An Adversarial Winograd Schema Challenge at Scale,2019】),使用表 2 中所示的准确率或归一化准确率指标。
- 多语言能力:我们评估 MGSM(【105,Language models are multilingual chain-of-thought reasoners,2022】),采用 8-shot 原生思维链精确匹配;以及 Global MMLU-Lite(【106,Global mmlu: Understanding and addressing cultural and linguistic biases in multilingual evaluation,2024】),采用 5-shot 准确率。报告的总分是可用语言特定结果的平均值。
- 长上下文能力:我们评估 RULER(【46,RULER: What’s the Real Context Size of Your Long-Context Language Models?,2024】),上下文长度从 64K 到 1M。缺失的条目表示在比较集中没有相应的结果。
评估结果对比。表 2 展示了 Nemotron 3 Ultra 550B-A55B Base 与 deepseek-ai/DeepSeek-V3.2-Exp-Base、mistralai/Mistral-Large-3-675B-Base-2512、moonshotai/Kimi-K2-Base 和 zai-org/GLM-4.5-Base 的评估结果比较。
表 2 | Nemotron-3-Ultra-550B-A55B-Base、deepseek-ai/DeepSeek-V3.2-Exp-Base、mistralai/Mistral-Large-3-675B-Base-2512、moonshotai/Kimi-K2-Base 和 zai-org/GLM-4.5-Base 的比较。最佳可用结果以粗体标出。
2.7. 模型稳定性
训练发散现象。在预训练期间,我们观察到两次训练发散的实例,其特征是训练交叉熵损失和 wgrad L2 范数同时增加。如图 5 所示。
图 5 | 训练和验证损失与词元数量的关系。两次使用“第一阶段”数据(“原始”和“带 FP32 RS 回滚”)的独立运行以不同颜色显示;两者都导致了损失发散。图中插图显示了每次发散的放大版本。“带 FP32 RS 回滚”是通过从原始运行中第一次损失发散前的检查点开始,并使用原始的 FP32 梯度缩减配方获得的。
发散 1:输出层的局部梯度累积精度。第一次发散发生在大约 8T 词元处,归因于输出层的局部梯度累积精度从 FP32 降低到 BF16(此举是为了将数据并行梯度缩减通过网络传输时优化为 BF16 以提高吞吐量)。如 §2.1 和 §2.4 所述,Nemotron 3 Ultra 使用 2 个 MTP 块,MTP 损失缩放因子为 0.1(每个 MTP 块为 0.05);因此,当使用只有 7 个尾数位的 BF16 时,MTP 块对共享输出层的 wgrad 贡献基本上会丢失。图 6 显示 MTP-2 损失在训练(和验证)损失之前开始出现尖峰/发散。回滚到较早的检查点并恢复到完整的 FP32 梯度缩减配方后,训练重新稳定(如图 5 所示)。
图 6 | 在图 5 所示的第一次发散区域附近,训练(下一词元的交叉熵损失)、MTP-1 和 MTP-2 损失与词元数量的关系。MTP-2 损失首先发散,并伴有频繁的大幅尖峰。
发散 2:原因未定。对于在 16T 词元左右发生的第二次训练发散,我们通过消融实验发现,回滚到 15T 词元检查点后立即开始学习率退火(无论是 5T 还是 10T 的衰减)可以缓解发散(图 7)。我们最终做出了一个实际的决定,将总预训练词元范围缩短到 20T。
发散原因探究。为了更好地理解发散的原因,我们研究了在整个预训练词元范围内以及 Super 和 Ultra 模型之间不同模型张量的行为。虽然我们未能找到导致这种不稳定性的确切原因,但我们发现了两个有趣的现象:
1. 不平衡和死亡的专家。作为预训练健康状况的一个可能代理指标,可以持续监控混合专家(MoE)层内可用专家之间的词元分布。当模型开始发散或遇到优化困难时,路由机制通常会退化,导致严重的词元倾斜。在极端情况下,这会导致“死亡专家”,即接收到零或接近零的词元,并实际上从学习过程中退出。为了量化专家不平衡,我们测量了 MaxVio 指标(【23,DeepSeek-V3 Technical Report,2025b】),该指标计算任何单个专家上的峰值负载与完全平衡的平均值相比的情况。
$MaxVio = \max_{1 \le i \le N} (\frac{load_i}{\mu})$,其中 $load_i$ 是路由到专家 $i$ 的词元数,$\mu$ 是每个专家的平均词元数(计算为 $\frac{\sum_i load_i}{N}$,其中 $N$ 是专家总数)。
我们注意到,可达到的最大 MaxVio 是 $MaxVio_{max} = \frac{N}{k}$,其中 $k$ 是每个词元路由到的专家数。对于 Nemotron 3 Ultra 和 Super,这给了我们 $MaxVio_{max} = 23.27$,而对于 Nano,它是 21.33。
我们在每个检查点的 20 次迭代的词元(来自训练和验证数据集)上计算了 MaxVio,总计 5 亿词元。在 Nemotron-3 Nano、Super 和 Ultra 中,我们观察到在预训练过程中,训练数据上的 MaxVio 总是低于验证数据上的。对于 Nano,训练值通常约为 1.3,验证值约为 5;对于 Super,分别为约 2 和约 6。对于 Ultra,路由开始时是平衡的,中位数(跨层)MaxVio 为 1.2,最大值为 4.8(第一个 MoE 层)。随着训练的进行,专家路由变得越来越不平衡;中位数层的 MaxVio 保持在 1.2 左右,但最大值持续增加,到 12T 词元时达到约 12(同样是第一层)。虽然本身不是因果关系,但 MaxVio 似乎与训练不稳定性相关。
- 不平衡的残差流激活范数。我们发现,对于 Super,模型深度上的残差范数相差 3 个数量级,对于 Ultra 则相差 4 个数量级。此外,Nemotron 3 Ultra 中残差范数的动态与 Nano 和 Super 预训练期间观察到的有质的不同,如图 8 所示。对于那些模型,早期层的残差范数会增加,然后减少并稳定下来。后期层的残差范数在训练期间缓慢增加。对于 Ultra,残差范数最初遵循这种模式,但早期层的范数在预训练约 7.5T 词元时开始上升,在约 11T 词元时出现大的残差范数尖峰,表明信号传播不佳。
图 7 | 图 5 所示的第二次发散周围的训练和验证损失。图中包括发散的原始运行(“带 FP32 RS 回滚”),以及在回退到发散前检查点(约 15T 词元)后,针对不同词元范围进行早期学习率退火的两次运行。
图 8 | Super 和 Ultra 训练期间残差激活范数的增长。Super 的早期层残差范数先增后减,最终稳定。后期层的特点是范数增长。然而,对于 Ultra,早期层的残差范数在训练进行到约 7.5T 词元时开始出现尖峰,在约 11T 词元时出现剧烈尖峰,表明训练不稳定性增加。
3. 后训练
后训练流程概述。在获得预训练模型后,我们进行了一个后训练阶段,该阶段的流程与用于 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)的流程相比,已经进行了大幅重新设计。如图 9 所示,该流程始于一个通用的监督微调(SFT)阶段。我们不再仅仅依赖连续的强化学习阶段,而是通过多教师在线策略蒸馏(MOPD)(【140,Nemotron-cascade 2: Post-training llms with cascade rl and multi-domain on-policy distillation,2026】;【69,On-policy distillation,2025】;【136,Mimo-v2-flash technical report,2026】)来增强流程,从而实现广泛的能力获取和有针对性的专业化。本节的其余部分围绕 MOPD 过程展开:我们首先描述如何通过 SFT、RLVR 和 MOPD 预热来准备学生模型,然后介绍专业教师模型的训练,最后详细说明迭代式 MOPD 优化和 MTP 增强程序。
图 9 | Nemotron 3 Ultra 后训练流程概览。
3.1. 监督微调 (Supervised Fine Tuning)
两阶段 SFT 训练。为了训练学生模型,我们从预训练的基础模型开始,并遵循 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)的方法,分两个阶段进行监督微调(SFT)。在第一阶段,我们对长度为 294,912 词元的打包序列进行训练,全局批量大小为 64,共训练 204,800 个样本,使用余弦学习率调度,峰值学习率为 1.5 × 10⁻⁵,最低学习率为 1 × 10⁻⁶,预热样本为 9,600 个。在第二阶段,我们将打包序列扩展到 515,000 词元,并向混合数据中增加了额外的长上下文数据,最长可达 512K 词元。我们使用全局批量大小 64 训练 19,200 个样本,采用相同的学习率调度,峰值为 1 × 10⁻⁵,最低为 2 × 10⁻⁶,预热样本为 6,400 个。与预训练一样,我们在 SFT 期间保留了共享权重的 MTP 目标,使用两个 MTP 层,每个词元的辅助损失缩放因子为 0.1。
3.1.1. 数据
长上下文数据。我们遵循(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中的合成数据流程,准备了 512K 长度的长上下文 SFT 数据。我们的数据旨在提升长上下文能力,包括但不限于多文档推理、顺序扫描和查询合成表格。
效率与控制数据。SFT 数据包含两个用于提升推理效率和控制能力的组件。第一个组件是由 GPT-OSS-120B 在其中等努力模式下,针对数学推理、STEM 问答和指令遵循等提示生成的训练样本。这些 SFT 数据启动了 Ultra 的中等努力模式,该模式随后在 RLVR 阶段得到优化。第二个组件是训练样本,其中推理轨迹被截断到随机的推理预算,而响应保持不变。这与 Nemotron 3 Nano 和 Super 类似,但有一个设计上的改变:被截断样本中的 </think> 词元在 SFT 训练损失中被掩码。
安全数据。为灌输稳健的安全行为,我们首先保留了 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中精心策划的 45K 安全数据混合,其提示来自不同来源,响应则是根据映射到每个提示的响应策略合成生成的。我们的两阶段响应和推理生成框架能够在推理轨迹中有意地反思安全指南,并确保最终响应是一致的、符合策略且与上下文相符的。此外,为了为 Nemotron 3 Ultra 的训练策划一个多语言数据集,我们使用 NeMo Skills 的分块翻译功能,将 Nemotron 3 Super 的安全数据混合翻译成六种语言——德语、西班牙语、法语、日语、意大利语和中文,确保句子间的对等性,并以 NVIDIA Riva Translate 4B v1.1 作为翻译骨干。为提高翻译质量,每个翻译样本都被回译成英语,并与原始的英语提示-响应对进行比较。语义相似度低于 0.8 的样本被过滤掉,这大约移除了每种翻译语言中 10-15% 的样本。我们手动抽查了得分最高和最低的翻译,以验证该过滤器确实移除了有明显翻译失败或结构问题的样本。过滤后,我们使用分层抽样创建了一个在六种翻译语言间平衡的数据集。最终的安全数据混合包含约 135K 个样本:约 45K 英文样本和每种翻译语言各约 15K 的样本。
搜索能力数据。在 SFT 期间,我们让模型接触跨越不同难度级别和工具使用框架的搜索数据,以提高泛化能力。首先,我们保留了来自 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)数据集的搜索轨迹,其种子提示基于 Wikidata 知识图谱。具体来说,该数据集选择连接良好的中心实体,并在事实关系上进行 4-8 跳的随机游走来构建多跳搜索提示。然后使用 Tavily 搜索引擎(https://www.tavily.com/)解决这些提示,并 以 MiniMax 2.1 作为教师模型。此外,我们还引入了一个新的搜索数据集:OpenResearcher(【65,OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis,2026】)的一个商业许可子集,这是一个为长时程研究代理设计的公共 SFT 数据集。OpenResearcher 使用 gpt-oss-120b(【3,gpt-oss-120b & gpt-oss-20b model card,2025】)作为教师模型,在一个完全离线的浏览器环境中合成了超过 97K 条轨迹。该环境基于一个对 1500 万 FineWeb 文档(【95,The FineWeb datasets: Decanting the Web for the Finest Text Data at Scale,2024】)的本地搜索索引,并辅以自举的证据文档,同时暴露了三种结构化的浏览器工具:用于检索候选页面的 search,用于检查完整文档内容的 open,以及用于在已打开文档中定位精确文本证据的 find。生成的轨迹捕捉了长时程的“推理-行动-观察”循环,模型在其中迭代地分解研究问题、收集和检查来源、定位支持证据,并合成有根据的最终答案。对于 Nemotron 3 Ultra,我们没有重新生成 OpenResearcher 数据;而是通过移除源许可证未获商业使用许可的样本,策划了商业可用部分。这种过滤产生了约 21.7K 条 SFT 轨迹,同时保留了原始的浏览器-工具交互格式,用于训练开放式研究和基于证据的搜索行为。最后,我们与数据供应商合作,策划了需要 50-100 次搜索的特别具挑战性的样本,并在我们的 BrowseComp 工具(见附录 A)中收集 SFT 轨迹。对于这些轨迹,我们使用 MiniMax 2.5 和 GLM 5.1 作为教师模型。
终端使用能力数据。为了培养强大的终端使用能力,我们构建了一个大规模的合成代理轨迹数据集,涵盖了广泛的终端任务,包括软件工程、数据处理、文件操作和科学计算。种子指令来源于多个公开可用的数据集组合:OpenCodeReasoning(【81,OpenCodeReasoning: Advancing data distillation for competitive coding,2025d】)、OpenMathReasoning(【82,OpenMathReasoning,2025e】)、SWE-bench(【54,SWE-bench: Can language models resolve real-world GitHub issues?,2024】)、SWE-Fixer-Train-110K(【48,SWE-Fixer-Train-110K,2025】)、SWE-rebench(【9,Swe-rebench: An automated pipeline for task collection and decontaminated evaluation of software engineering agents,2025】)和 SWE-smith(【92,SWE-smith: Scaling data for software engineering agents,2025b】)。任务由两个互补的来源组成:一部分改编自 Nemotron-Cascade 中现有的数学和编码 SFT 数据,重新格式化以适应终端使用环境;另一部分使用 DeepSeek-V3.2(【23,DeepSeek-V3 Technical Report,2025b】)合成生成,以覆盖现有基准中代表性不足的更广泛的终端场景。对于轨迹生成,DeepSeek-V3.2 被用作 Harbor 框架(【43,Harbor framework,2025】)提供的 Terminus-2 代理中的行动代理。每个轨迹都在多个回合中展开,模型接收初始任务提示,随后与实时终端环境交互,发出命令并整合执行反馈,以迭代地推进任务完成。这种多步骤、基于环境的收集过程鼓励模型学习有效的终端操作所特有的实用工具使用、自适应规划和错误恢复行为。最终的数据集包含约 37 万个多轮对话,由推理和非推理轨迹混合而成。
对话式工具使用能力数据。我们通过一个完全合成的六阶段生成流程来扩展对话式工具使用数据。这包括用户和环境模拟。该流程与 Nemotron-3 Super 中描述的类似。
软件问题解决数据。为了提炼出强大的问题解决能力,我们策划了一个多样化的合成代理轨迹数据集,专注于解决真实的 GitHub 问题。为此,我们利用两种不同的建模范式生成了合成轨迹:基于推理(思考)的 Minimax-M2.5(【75,Minimax m2.5: Built for real-world productivity,2026】)和基于指令(非思考)的 Qwen3-Coder480B-A35B-Instruct(【139,Qwen3 Technical Report,2025】)用于问题解决。底层的问题陈述来自于一系列多样化的公开数据集,包括 SWE-Gym(【91,Training Software Engineering Agents and Verifiers with SWE-Gym,2025a】)、R2E-Gym(【52,R2E-Gym: Procedural Environments and Hybrid Verifiers for Scaling Open-Weights SWE Agents,2025】)、SWE-rebench(【9,Swe-rebench: An automated pipeline for task collection and decontaminated evaluation of software engineering agents,225】)和 SWE-rebench-V2(【10,Swe-rebench v2: Language-agnostic swe task collection at scale,2026】)。这些轨迹是使用 OpenHands(【127,OpenHands: An Open Platform for AI Software Developers as Generalist Agents,2025b】)、SWE-agent(【140,SWE-agent: Agent-computer interfaces enable automated software engineering,2024】)以及 Mini-SWE-agent 和 Opencode 工具集捕获的。原始的代理执行序列(rollout)包含许多模式,如果直接用作 SFT 数据,虽然能完成任务,但会教给模型不良行为。因此,我们使用一个基于轨迹的启发式分析器来过滤执行序列池,该分析器评估一组固定的信号来做出包含/排除的决定:提交完整性(轨迹必须以有效的提交动作结束)、不允许的 git 操作(任何使用 push, pull, fetch, clone, cherry-pick, reflog, fsck, remote, 或 ls-remote)、编辑-测试循环的反模式(模型在编辑和测试运行之间反复折腾而无法收敛——要么撤销自己的编辑,要么无限重复“编辑→测试→编辑”循环)、迷失在探索中(模型大部分回合都在读取/搜索仓库,但很少编辑,表明未能定位并提交修复)、工具调用卫生(格式错误的工具调用率高)、最终补丁中的调试残留物检测(print(, pdb, breakpoint()),以及一个标记出那些编辑了但从未运行测试的轨迹的验证检查。这种多模型、多框架的方法确保了最终的数据集能够促进在多样的解决问题模式和变化的代理环境中的泛化能力。
数学/证明数据。我们使用 Nemotron-Cascade-2(【140,Nemotron-cascade 2: Post-training llms with cascade rl and multi-domain on-policy distillation,2026】)的数学数据,其问题主要来源于 Nemotron-Cascade(【125,Nemotron-cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models,2025a】;【68,AceReason-Nemotron 1.1: Advancing Math and Code Reasoning through SFT and RL Synergy,2025】)和 Nemotron-Math-V2(【33,Nemotron-math: Efficient long-context distillation of mathematical reasoning from multi-mode supervision,2025b】)。对于非证明的数学数据,我们收集了 180 万个工具调用样本和 190 万个非工具样本,响应分别由 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 生成。对于数学自然语言证明数据,我们从 Nemotron-Math-Proofs-v1(【33,Nemotron-math: Efficient long-context distillation of mathematical reasoning from multi-mode supervision,2025b】)的 AOPS 部分获取证明问题,并由 DeepSeek-V3.2-Speciale 生成响应,以涵盖证明生成、证明验证和证明改进等能力。
科学数据。我们遵循 Nemotron Nano 的配方(【79,Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning,2025b】)准备科学 SFT 数据,该配方结合了跨越物理、化学和生物学的合成、真实世界和文档派生的种子数据。使用 NeMo Data Designer(【110,Nemo data designer: A framework for generating synthetic data from scratch or based on your own seed data,2025】)对提示和格式进行多样化处理,并使用 LLM 评判器对生成的样本进行格式合规性和推理质量的过滤。除了 Nano 的配方外,我们还使用 DeepSeek-V3.2(【22,Deepseek-v3.2-exp: Boosting long-context efficiency with deepseek sparse attention,2025a】)生成了网络搜索和带 Python 的网络搜索推理轨迹。对于网络搜索轨迹,模型可以访问 Tavily 搜索引擎(https://www.tavily.com/);对于 带 Python 的网络搜索轨迹,模型还可以额外访问 Python 执行环境。
聊天数据。我们通过从 LMArena(【17,Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference,2024】)和 WildChat(【64,WildChat: 1M ChatGPT Interaction Logs in the Wild,2024】)等开放对话数据集中提取的种子提示开始,创建多轮聊天 SFT 数据。对于每个提示,我们从 GLM-5(【41,GLM-5: from Vibe Coding to Agentic Engineering,2026】)中采样多个候选响应,并使用 Nemotron-GenRM(【129,Helpsteer3-preference: Open human-annotated preference data across diverse tasks and languages,2025c】)选择当前轮次的最高质量响应。为了将数据扩展到多轮对话,我们在受控提示下使用相同的 LLM 模拟用户。模拟用户由手工制定的对话策略引导,例如在先前内容的基础上进行构建、请求澄清、挑战假设、重新构建任务或将答案应用于新情境,以产生多样化和真实的对话轨迹。为了构建多轮对话的鲁棒性,我们构建了早期助手轮次可能包含次优响应而非最佳候选响应的示例。模型在 SFT 中仅对最终的助手响应进行训练,以产生高质量的当前轮次输出,同时对不完美的先前轮次保持鲁棒。
代码数据。我们从 Codeforces、AtCoder、AIZU 和 CodeChef 等现代竞赛编程平台收集编码问题。遵循 Yang 等人(【140,Nemotron-cascade 2: Post-training llms with cascade rl and multi-domain on-policy distillation,2026】)的方法,我们应用了严格的去重和积极的过滤来提高数据质量并平衡问题难度。考虑到其强大的推理能力和良好的详细程度,我们选择 GPT-OSS-120B(【3,gpt-oss-120b & gpt-oss-20b model card,2025】)作为我们的教师模型,并对这些推理轨迹应用拒绝采样。该流程最终产生了一个数据集,包含 120 万条 Python 推理轨迹、100 万条 C++14 推理轨迹和 130 万条用于竞赛编码的 Python 工具调用推理轨迹。
CUDA 数据。我们构建了一个大规模的合成 CUDA 数据集,包含约 10 万个样本,用于内核生成、修复和优化。该数据集是使用基于 LLM 的合成数据生成流程,以 DeepSeek-R1 和 GPT-OSS-120B 为模型构建的。种子问题来源于流行的开源库、NVIDIA 库 API 接口和 BackendBench(【100,Backendbench: An evaluation suite for testing how well llms and humans can write pytorch backends,2025】)。数据集的构建动机是需要反映真实世界 GPU 内核编程和基准测试挑战的 CUDA 专业训练数据,正如最近的 CUDA 基准测试工作如 SOL-ExecBench(【66,Sol-execbench: Speed-of-light benchmarking for real-world gpu kernels against hardware limits,2026】)所强调的。这些种子被用来生成两种类型的样本:PyTorch-reference-to-CUDA-kernel 样本和 natural-language-specification-to-CUDA-kernel 样本,每个样本都附有推理过程。对于每个种子项,通过基于 LLM 的合成生成和拒绝采样产生多个候选内核。候选内核在一个内部 CUDA 评估环境中使用编译检查、数值正确性测试和运行时基准测试进行验证。无效、无法编译或不正确的候选内核被拒绝。在剩余的有效候选内核中,根据基准测试的运行时性能,保留表现最佳的内核。此外,我们从一个内部 CUDA 代理收集轨迹以生成修复和优化数据。修复样本包含一个 PyTorch 参考、一个有缺陷的 CUDA C++ 内核、相应的错误消息和一个修正的 CUDA C++ 内核。优化样本包含一个 PyTorch 参考、一个慢速的 CUDA C++ 内核、一个 Nsight Compute 日志和一个优化的 CUDA C++ 内核。除了直接生成 CUDA C++ 内核,我们还使用公开可用的文档和官方代码示例生成了 CUDA-X 库数据。遵循与 CUDA-C 数据相同的构想,我们生成了 PyTorch 参考、对齐的自然语言规范、相应的 CUDA-X 库实现和推理过程。涵盖的库包括 Thrust、CUB、cuBLAS、cuDNN、cuSPARSE、cuRAND 和 cuSOLVER。
RTL 数据。我们使用 ACE-RTL(【27,ACE-RTL: When Agentic Context Evolution Meets RTL-Specialized LLMs,2026】)训练数据,该数据涵盖三大 RTL 任务类别:规范到 RTL 生成、代码编辑和代码调试。ACE-RTL 建立在 ScaleRTL(【26,Scalertl: Scaling llms with reasoning data and test-time compute for accurate rtl code generation,2025】)的种子 RTL 语料库之上,其中种子设计从经过许可检查的开源 RTL 仓库中收集,并在用于数据生成前经过了去重、过滤和语法验证。对于规范到 RTL 的任务,使用 DeepSeek-R1 和 GPT-OSS-120B 来合与从种子设计派生的黄金 RTL 实现配对的自然语言规范。对于编辑和调试任务,原始种子 RTL 被视为黄金实现,而生成功能缺失的简化变体或注入了真实设计错误的错误变体作为输入;相应的规范描述了恢复黄金 RTL 所需的功能扩展或诊断信息。在通过语法检查、基准测试去污染和使用人工定义准则的语义对齐评估进一步过滤后,最终数据集包含约 120 万个训练样本。
多语言数据。我们的多语言后训练数据是句子级平行语料库与数学、代码和科学领域英文 SFT 样本合成翻译的混合体。对于合成数据,由于在之前的逐行翻译流程中发现了数据质量问题,我们引入了一个新的端到端翻译流程,该流程将整个 JSON 对象作为输入并生成整个 JSON 对象作为输出。由于该流程要求翻译模型具备强大的长上下文能力,我们转向使用 DeepSeek-V3-0324。翻译后,我们首先进行启发式格式检查,以确保所有输出都符合指定的 JSON 格式,然后执行与 Nemotron Super-V3 配方(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中引入的相同的数据过滤步骤和轻量级后期编辑步骤。对日语数据的消融研究显示,通过 MMLU-ProX(【138,MMLU-ProX: A multilingual benchmark for advanced large language model evaluation,2025】)测量,质量相比逐行翻译流程有显著提升。对于 Nemotron Ultra-V3,我们使用此流程为印地语、日语、韩语和巴西葡萄牙语合成了数据,而对于其余语言则重用了 Super-V3 中现有的多语言合成数据。
3.1.2. 数据打包
长度感知最佳拟合打包策略。为了在一个庞大且多样化的数据集集合上高效训练,我们采用了一种长度感知的最佳拟合打包策略(【30,Fewer truncations improve language modeling,2024】),该策略将多个对话打包成序列,直至达到最大上下文长度。我们的打包器内存效率极高:它以轮询方式读取并交错所有源文件,内存中只维护一个固定大小的开放序列池,一旦序列的剩余容量低于一个小的容忍值,就将其退役。每个传入的对话被分配给它能最紧密填充剩余容量的部分填充序列,遵循一个最小化填充开销的最佳拟合规则。我们既不截断也不拆分对话,从而保留了完整的上下文并减少了幻觉。此外,我们强制执行包内去重约束,以防止相同的提示在同一序列中共现。打包后,我们对所有完成的包进行最后一次洗牌。总的来说,我们的实现确保每个打包序列都从数据分布的广泛、充分混合的横截面中抽取,而不是聚集来自任何单一来源的样本。这种彻底的混合在大规模训练中至关重要,因为简单的按源分片连接会引入强烈的分布局部性,从而降低优化稳定性。
3.2. 强化学习
统一 RLVR 训练。为了改进 SFT 模型,我们进行了一个统一的 RLVR(带可验证奖励的强化学习)训练阶段,该阶段涵盖了所有可用的环境,目标包括终端使用、办公和生产力工作流、软件工程、搜索、通用工具调用、数学、代码、STEM、安全、聊天、指令遵循、长上下文问答、归纳和转导推理、结构化输出以及通用模型可用性。对于基于测试框架(harness-based)的环境,我们使用多样化的测试框架实现和交互格式来构建训练数据,以提高对执行设置变化的鲁棒性,并减少对任何特定测试框架设计的过拟合。
数据与训练过程。我们使用最新的数据集合来刷新 RL 训练数据,并在训练前进行奖励分析。对于数据混合和课程构建,我们采用了 NVIDIA(【79,Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning,2025b】)中介绍的基于高斯的方法。我们的训练过程主要遵循异步 GRPO 算法以及 NVIDIA(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中提出的稳定性优化,同时对训练基础设施进行了一些改进,详见第 3.6 节。为了支持在庞大且多样化的环境集中进行训练,我们使用了 8192 的全局批量大小,每个样本生成 16 个 rollout。训练开始时最大生成长度为 48K 词元,之后增加到 64K 词元。
3.3. MOPD
MOPD 动机与流程。混合环境的 RLVR 在广泛的领域内提供了广泛的能力提升。然而,随着环境数量的持续增长,每个领域在任何给定的训练批次中只贡献相对较少的样本,这稀释了每个领域的学习信号,并使得跨领域平衡训练变得越来越困难。为了充分释放性能并推动每个能力领域的前沿,我们训练了十多个专业化的教师模型,每个模型都通过其领域特定的训练流程进行优化。
异步 MOPD 与迭代演化。在 MOPD 期间,学生模型(从 RLVR 获得)在所有领域生成 rollout,并从相应的教师模型接收密集的奖励信号。为了最大化效率,MOPD 是异步进行的,学生 rollout 生成、教师评分和学生优化完全流水线化。此外,MOPD 在多个迭代周期中执行:在获得一个 MOPD 训练的检查点后,我们从更新后的学生模型初始化新一轮的教师训练,然后将由此产生的改进合并回下一个 MOPD 阶段。这种学生和教师之间的迭代共同进化使得能力得以持续提升,并在各个领域逐步实现更强的专业化。在训练 Nemotron 3 Ultra 时,我们进行了两轮 MOPD,具体过程如图 10 所示。
3.3.1. 算法
异步 MOPD 算法。基于先前关于在线策略蒸馏的工作(【140,Nemotron-cascade 2: Post-training llms with cascade rl and multi-domain on-policy distillation,2026】;【69,On-policy distillation,2025】;【136,Mimo-v2-flash technical report,2026】),我们构建了异步 MOPD,其中包含一个学生策略 $\pi_{stu}$ 和一组领域专业的教师策略 {$ \pi_{tea}^d $}${d=1}^D$,每个教师 $\pi)$ 为在词元位置 $t$ 的前缀状态。MOPD 训练学生在由学生自身引起的状态上匹配相应的教师。在完全在线策略的情况下,这对应于最大化负向反 KL 目标:}^d$ 对应一个领域数据集 $D_d$。对于一个提示 $x \sim D_d$ 和一个学生生成的补全 $y = (y_1, . . . , y_T)$,令 $s_t = (x, y_{<t
图 10 | Nemotron 3 Ultra 的两轮 MOPD 训练流程。第一轮将通用和代理教师的信号蒸馏到 Ultra MOPD1 中。第二轮从 Ultra MOPD1 初始化额外的教师,重用第一轮的教师,并将所有产生的信号蒸馏到 Ultra Final 中。RLVR 学生也作为未被专业教师覆盖的领域的自教师。
其中 $\alpha_d$ 控制领域 $d$ 的采样或损失权重。等价地,在每个前缀 $s_t$,学生最小化 $KL(\pi_{stu}(\cdot|s_t) \Vert \pi_{tea}^d(\cdot|s_t))$。因此,与混合环境 RLVR 中奖励通常是稀疏且依赖于环境不同,MOPD 从相关的教师分布中提供了一个密集的词元级学习信号。
实现细节与优化。在我们的实现中,MOPD 是异步执行的。Rollout 工作者、教师评分工作者和学习者工作者以流水线方式运行。因此,一个轨迹可能由一个过时的行为策略 $\pi_{\text{behav}}$ 生成,而学习者则优化一个更新的学生快照。为了在这种设置下保持稳定,我们将行为策略与作为信任区域中心的近端策略 $\pi_{\text{prox}}$ 解耦(【39,Areal: A large-scale asynchronous reinforcement learning system for language reasoning,2026】)。对于每个采样词元,我们计算
密集的蒸馏优势是相对于近端策略的采样负向反 KL 估计:
其中 sg[·] 表示停止梯度。我们用以下方式表示行为策略到近端策略的重要性比率和近端策略到当前策略的比率:
这里,$\rho_t$ 解释了过时的 rollout 策略 $\pi_{\text{behav}}$ 与近端学习者策略 $\pi_{\text{prox}}$ 之间的不匹配,而 $r_t(\theta)$ 是由学习者优化的策略比率。PPO 风格的裁剪被应用于 $r_t(\theta)$,围绕近端策略 $\pi_{\text{prox}}$。学习者最大化裁剪后的异步 MOPD 代理目标:
其中 $M_t$ 表示使用 IcePop 策略(【108,Every step evolves: Scaling reinforcement learning for trillion-scale thinking model,2025】)的词元级掩码。
MOPD 训练参数。MOPD 训练使用的最大生成长度为 192K 词元,与所有教师训练运行中使用的最长生成长度相匹配。每个训练批次包含 1,024 个提示,每个提示一个 rollout。在我们的消融研究中,使用多个 rollout 并未带来额外的好处。
3.3.2. 专业教师
软件工程教师。SWE 教师通过三阶段流程进行训练。我们首先将 SFT 应用于 Ultra 基础模型,数据为代理数据混合。接着,我们在单步代理环境上运行 PivotRL(【141,Pivotrl: High accuracy agentic post-training at low compute cost,2026】)。在最后的端到端 SWE-RL 阶段,模型与代码仓库进行多轮交互,发布工具和 bash 命令以生成一个补丁,之后验证器运行隐藏测试并分配一个用于 GRPO 的二元奖励。最终奖励并不总是有助于轨迹级行为,有时会错误地奖励或惩罚轨迹,这促使我们进行以下调整。我们对未完成的轨迹(那些达到最大代理轮次或触发代理/评估超时的轨迹)掩盖损失,并通过对违规词元分配负优势来惩罚格式错误的推理和工具调用。此外,为防止代理通过从任务容器中读取黄金补丁来作弊,我们关闭了两个泄露渠道。首先,在代理开始前,我们重写容器内仓库,使其看起来像是在任务基础提交时刻进行的一次全新克隆,这样未来的提交不仅被隐藏,而且被物理删除,无法通过任何低级 git 恢复命令恢复。其次,我们安装了一个运行时命令过滤器,阻止代理通过远程 git 操作或任何使用 HTTP 工具从 GitHub 的 web、原始内容或 Pages 域下载来拉取历史记录的任何方式。我们的端到端 RL 使用 192K 的生成长度和最多 200 个代理轮次进行。
办公与工作场所任务教师。为了将代理能力扩展到软件工程和技术领域之外,我们训练了一个专门针对 GDPval 基准(【93,Gdpval: Evaluating ai model performance on real-world economically valuable tasks,2025】)所衡量任务类型的教师模型。每个示例都构建为一个专业工作任务,旨在捕捉人类专业人士通常执行的有意义的生产性经济任务。模型被给予一个提示,通常附有支持性参考文件,并且必须生成一套最终的可交付成果,如电子表格、文档或报告、音乐/音频文件或其他工件。这使得 GDPval 在性质上有所不同,因为它不仅依赖于得出正确结论,还依赖于阅读可用材料、组织中间证据、遵循隐含的专业惯例,并生成一个必须在质量上为人类评估者或代理评判者所接受的输出。我们从一个完成了通用 SFT 后训练阶段的 Nemotron 3 Ultra 检查点初始化了办公和工作场所任务教师。然后,我们从 AfterQuery (AQ) 任务中构建了一个训练分布,这些任务与 GDPval 共享重要的潜在结构,包括基于文件的推理、专业可交付成果、多步分析和评判的最终输出。对于每个 AQ 任务,我们使用一个强模型生成多个完整的轨迹 rollout。这些 rollout 分两个阶段使用。首先,在 pivot RL 之前,我们直接在学生 Ultra 模型上进行了轻量级的 SFT。此步骤的目标是将强模型对 GDPval 类任务的工作流先验知识转移给学生。其次,在这次 MOPD 预热之后,我们在 MOPD 阶段继续进行 pivot RL,使用从强模型的 AQ rollout 中派生的 pivot 将 SFT 训练的教师蒸馏到学生 Ultra 模型中。
搜索教师。基于搜索的代理通常会积累长而嘈杂的交互历史,因为检索到的文档可能冗长、重复或仅部分相关。没有明确的上下文管理,模型在完成需要迭代查询优化和证据聚合的长时程问题之前,可能会耗尽其上下文窗口。Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)在没有明确上下文管理监督的情况下对搜索数据进行了训练。因此,对于 Nemotron 3 Ultra,我们训练了一个搜索专业教师,从一个 Ultra 检查点初始化,使用 SFT 对增强了上下文管理行为的轨迹进行训练。训练数据让模型接触到多种在有限上下文预算下操作的策略,包括全部丢弃重置和基于摘要的压缩。我们主要关注全部丢弃的上下文管理,即一旦交互历史超过上下文预算,早期的搜索观察结果就会被移除,这使得模型能够搜索比其官方上下文长度更长的有效上下文。
终端使用教师。我们从为在长超时设置下挑战模型而策划的任务的专家轨迹开始,模型需要运行任务长达一小时。我们利用 PivotRL(【141,Pivotrl: High accuracy agentic post-training at low compute cost,2026】)在此数据上迭代改进模型,并在观察到准确率饱和时引入重新分析(re-profiling)步骤。
对话式工具使用教师。我们从 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)的相同数据和配方开始,通过 PivotRL(【141,Pivotrl: High accuracy agentic post-training at low compute cost,2026】)在对话式工具使用数据上训练模型。对于 Nemotron 3 Ultra,我们将数据扩展到需要顺序和依赖性多步操作的任务,以防止在对话代理设置中过早终止。
模型可用性教师。我们将模型可用性训练从 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中的结构化模式格式化扩展到涵盖三个额外目标:文档提取、引文格式化和自由文本格式化。对于结构化模式格式化,我们创建了一个改进的数据集,涵盖五种模式类型:JSON、YAML、XML、TOML 和 CSV。此外,我们将结构化输出任务增加到六个类别:直接提取、翻译、多步相关(依赖性后续)、多步无关(独立后续)、仅模式和错误纠正。对于文档提取,我们向模型提供了各种结构化提取工具及干扰项,以教导模型调用具有深层嵌套字段的复杂提取工具。对于引文格式化,我们教导模型使用多种内联引文格式来引用其输出中给定文档的部分内容。对于自由文本格式化,我们教导模型在回答基于给定文档的查询时遵循多样的 markdown 样式指令。所有种子数据均使用 Nemo Data Designer(【110,Nemo data designer: A framework for generating synthetic data from scratch or based on your own seed data,2025】)和 openai/gpt-oss-120b(【89,gpt-oss-120b & gpt-oss-20b model card,2025】)创建,所有环境均通过 Nemo-Gym(【76,NeMo Gym: An Open Source Framework for Scaling Reinforcement Learning Environments for LLM,2025a】)实现。
代理安全性教师。我们引入了一个代理安全性教师,以提高模型对抗间接提示注入攻击的鲁棒性,在这种攻击中,恶意指令被嵌入到工具响应数据中,而不是由用户直接发出。我们构建了一个包含来自各种企业领域的现实任务的数据集。在每个任务中,用户提供一个良性请求,要求模型调用一个读取工具,该工具返回的内容中隐藏着一个嵌入在领域适当文本中的对抗性指令,例如图表注释、案例摘要、产品描述、简历或支持工单。注入的指令针对一个与完成用户任务所需工具不同的敏感写入工具,使得攻击合规性可以直接从工具调用轨迹中观察到。该数据集涵盖四个攻击类别:未经授权的操作、数据修改、拒绝服务和数据泄露。为了生成具有挑战性的攻击,我们使用一个自动化的红队循环,其中攻击者模型迭代地重写注入的指令以对抗防御者模型,直到防御者遵循该指令,并且只保留成功的攻击。我们使用 Nemotron 3 Super 作为攻击者模型,Nemotron 3 Nano 作为防御者。在训练和评估期间,一个确定性验证器仅在代理没有使用目标参数调用攻击者的目标工具时,才将注入标记为已抵抗。该教师为完成用户预期任务同时忽略从环境中浮现的不受信任指令提供了可验证的监督。
聊天教师。随着策略模型变得越来越大、能力越来越强,我们观察到它们在 RLHF 过程中越来越倾向于利用奖励模型的弱点,特别是当奖励模型较小或能力较弱时。具有推理能力的生成式奖励模型(GenRM)(【129,Helpsteer3-preference: Open human-annotated preference data across diverse tasks and languages,2025c】)有助于缓解这种奖励 hacking 行为,但仍然存在大量的失败案例。为了解决这个问题,我们扩大了模型容量和训练数据,并开发了一个基于 Ultra 的 GenRM。该 GenRM 被训练用于在给定对话上下文的情况下评估一对候选响应。当提供用户定义的原则时,模型根据这些原则进行判断;否则,它根据一般的帮助性和质量标准评估响应。我们在 3.1 节中生成的 Ultra SFT 模型之上训练了 GenRM。GenRM 的训练遵循我们在 NVIDIA(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中使用的相同 RLVR 方法,我们分配奖励来教它预测两个响应的单个分数和一个排名分数。当出现多个原则时,GenRM 预测每个原则的三元组,然后得出总体判断。在 RLHF 期间,只有总体分数被用作奖励信号。聊天教师的训练涉及多个 RLHF 迭代。每次迭代后,我们在内部聊天基准上评估策略模型,识别弱点,并策划有针对性的数据来解决这些问题。一个遵循原则的 GenRM 使这个过程更加灵活:它不依赖于一般的帮助性,而是在训练和评估过程中适应不同的原则,从而能够在不重新训练奖励模型的情况下,跨周期实现有针对性的改进。
指令遵循与事实性教师。为了进一步提升指令遵循和事实性,我们在第 3.2 节描述的 RL 检查点之上,进行了领域聚焦的 RLVR。训练利用了指令遵循、聚焦于弃权(abstention-focused)和 RLHF 环境的组合。指令遵循环境涵盖了多种具有挑战性的场景,包括但不限于严格的格式合规性、对话中途的指令变更以及长时程的对话连贯性。这些能力通过编程方式或通过 LLM-as-a-judge 验证进行评估。除了指令遵循,该教师还接受了弃权训练,鼓励模型在不确定时弃权,而不是产生不正确的幻觉。我们在整个训练过程中动态校准弃权奖励,以在准确性和幻觉减少之间实现有利的平衡。为了避免行为崩溃和对训练环境的过拟合,我们在优化过程中额外加入了 RLHF 数据。这有助于在提高指令遵循和事实性导向任务的鲁棒性的同时,保持响应质量、帮助性和与人类偏好的一致性。
STEM 教师。该教师专注于数学、代码、自然科学、人文学科、社会学等广泛学科的一般推理能力,以及这些领域的工具使用。从学生模型开始,我们对选定的数据集进行额外的 SFT 和 RL 阶段。由此产生的教师模型在 GPQA、MMLU-Pro、LiveCodeBench v6、IMOAnswerBench 和 Apex Shortlist 等具有挑战性的推理基准上,达到或超过了 DeepSeek V4 Pro (High) 的水平(见表 3)。下面我们讨论数据生成和混合策略以及我们的训练过程。
表 3 | 通用推理教师的推理性能。每个基准上的最高分以粗体显示。一点范围内的差异被视为噪音。
科学推理数据。我们通过为现有问题生成新的推理轨迹来构建我们的科学数据集,该数据集涵盖 STEM 和非 STEM 领域。种子问题来源于 Nemotron Nano SFT 数据集、一个新策划的化学数据集(【63,Beyond chemical qa: Evaluating llm’s chemical reasoning with modular chemical operations,2025】;【143,Chemllm: A chemical large language model,2024】)、Multi-subject-RLVR 数据集(【107,Expanding rl with verifiable rewards across diverse domains,2025】)以及一个内部专有数据集。我们对每个来源进行了过滤,以去除最简单的问题。对于每个问题,我们使用 DeepSeek-V4-Pro(【24,Deepseek-v4: Towards highly efficient million-token context intelligence,2026】)生成四个解决方案轨迹;对于更难的问题,我们为每个问题生成 16 个轨迹。所有轨迹都由一个独立的 LLM 评判器 gpt-oss-120b(【89,gpt-oss-120b & gpt-oss-20b model card,2025】)进行正确性评分。为了提高长篇推理的覆盖率,我们额外重采样了一部分中位数正确解决方案长度超过 16k 词元的问题,为每个问题生成八个轨迹。最后,我们保留了一个包含 3000 个问题的保留集用于 RL 评估,这些问题被选择为通过率在 0.25 到 0.80 之间,且中位数正确解决方案长度低于 64k 词元。
编码推理数据。我们从过去 10 年全球国际编程竞赛中收集的大约 14,000 个问题构建了我们的竞赛编码数据。该数据集包括来自不同竞赛风格和难度级别的问题,涵盖了奥林匹克风格的任务、ICPC 风格的问题以及区域性竞赛编程基准。为了加强对困难算法推理的覆盖,我们还从 OpenCodeReasoning(【4,OpenCodeReasoning: Advancing Data Distillation for Competitive Coding,2025】)中增加了 4,000 个难题,这些问题强调长时程推理、算法设计和实现密集型问题解决。对于每个问题,我们用 DeepSeek-V4 生成 10 个候选解决方案,并根据编译成功与否过滤生成的轨迹,移除未能编译的解决方案。
数学思维链(COT)和工具集成推理(TIR)数据。我们遵循 Nemotron 数学数据流程(【32,Nemotron-math: Efficient long-context distillation of mathematical reasoning from multi-mode supervision,2025a】)构建主要的数学推理数据。从相同的源集合开始,我们过滤掉简单或琐碎的问题,保留了 95,164 个独特的数学问题。对于每个保留的问题,我们使用 DeepSeek-V4-Pro(【24,Deepseek-v4: Towards highly efficient million-token context intelligence,2026】)在高推理模式下生成 COT 和 TIR 解决方案轨迹,使用模型提供商推荐的生成参数。然后,我们使用一个基于 LLM 的评判流程,以 gpt-oss-120b(【89,gpt-oss-120b & gpt-oss-20b model card,2025】)作为评判器,根据参考答案检查每个轨迹,并仅保留被判定为正确的轨迹用于 SFT。最终验证的池子包含 285,516 个 COT 样本和 259,915 个 TIR 样本,总计 545,431 个样本。
数学证明数据。我们还构建了一个专门的数学证明数据集,以提高严谨的定理证明和验证式推理能力。证明的种子问题来源于 Nemotron 数学数据集合(【32,Nemotron-math: Efficient long-context distillation of mathematical reasoning from multi-mode supervision,2025a】)的 AoPS AoP(【1,Art of Problem Solving,2025】)部分,涵盖 5,751 个独特的证明问题。对于每个证明问题,我们使用 DeepSeek-V4-Pro(【24,Deepseek-v4: Towards highly efficient million-token context intelligence,2026】)在最大推理模式下生成面向证明的轨迹,使用模型提供商推荐的生成参数。遵循 DeepSeekMath-V2(【102,Deepseekmath-v2: Towards self-verifiable mathematical reasoning,2025】)的方法,我们生成证明、验证和元验证响应。我们保留遵循提示输出结构的样本,并移除达到最大上下文长度的响应。最终验证的池子包含 82,737 个样本,包括证明式、验证式和元验证式响应。
SFT 数据混合。我们使用词元级别的目标比例而非样本数量来构建最终的 SFT 混合数据,因为平均响应长度在不同数据源之间差异很大。最终的混合数据由 400 亿个生成的词元组成,分为四个主要部分。科学推理数据贡献了 235 亿词元(58.75%),涵盖了 STEM 和非 STEM 推理任务。数学思维链/工具集成推理数据和数学证明数据共同贡献了 94.5 亿词元(23.63%),而竞赛编码数据贡献了 40.5 亿词元(10.13%)。我们还加入了一个较小的通用领域 SFT 组件,总共贡献了 30 亿词元(7.50%),以保持广泛的指令遵循和开放领域推理能力。对于超出其词元预算的来源,我们随机下采样;对于低于其目标预算的来源,我们上采样,同时在适用时保持源内的原始混合比例。训练样本被打包到最大序列长度为 294,912 词元,我们遵循与第 3.1 节相同的实验设置,训练一个完整的 epoch。
强化学习。SFT 之后,模型在数学、代码和自然科学方面表现出色,因此在接下来的 RL 阶段,我们专注于人文学科和社会学等非 STEM 领域。我们基本上采用了与第 3.2 节相同的设置,只是每批次使用了较少的提示(128 个),因此全局批量也较小(2048)。我们兴奋地发现,训练的泛化效果很好,导致所有领域都有显著提升,而不仅仅是非 STEM 领域。
竞赛编程教师。我们在通用推理教师的基础上,使用最初来自 Nemotron-Cascade(【125,Nemotron-cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models,2025a】;【140,Nemotron-cascade 2: Post-training llms with cascade rl and multi-domain on-policy distillation,2026】)的编码数据进行了额外的竞赛编程 RL,该数据包含来自多个竞赛编程平台的编码提示,并带有强大的测试用例以进行奖励验证。我们过滤掉了通用推理教师在 8 次 rollout 中全部正确解决的提示,最终得到了一个仅包含 3.5K 样本的紧凑集合。这次竞赛编程 RL 在 LiveCodeBench v6 上比通用推理教师提升了 2.4 个点。
3.3.3. MOPD 预热
MOPD 预热的必要性。我们 MOPD 试验的一个关键发现是,通过差异显著的训练流程训练出的教师模型,无法通过简单的 MOPD 合并有效地结合,导致性能不佳。我们假设,当教师和学生在不同的 SFT 数据上训练时,它们会获得不同的推理行为并产生不同的输出分布。这种分布不匹配可能导致学生生成的轨迹对于教师来说是分布外的,从而降低了教师提供的监督信号的质量和可靠性。我们在实践中遇到了这个问题,因为教师和学生模型是并行开发的,许多代理和推理教师都使用它们自己专门的 SFT 流程进行训练。
预热阶段的引入。为了缓解教师和学生模型之间的分布不匹配问题,我们在 MOPD 之前引入了一个简短的预热阶段。具体来说,学生在从教师训练分布中抽取的数据上进行一次非常轻量的 SFT。目标是使学生的推理轨迹和输出分布与教师期望的保持一致。这通过增加学生生成的轨迹落在教师支持范围内的可能性,提高了教师监督的可靠性。由于预热阶段的规模有意限制,它对不相关领域的回归影响最小,并且任何残留的性能下降都会在随后的 MOPD 训练中恢复。
预热消融实验结果。表 4 展示了跨三个代表性领域的消融结果。结果显示,在代理领域,预热阶段显著提高了 MOPD 训练后的性能。相比之下,对于像 HLE 这样的通用推理任务,预热只带来了微不足道的增益。我们将在 3.3.4 节讨论这种差异的可能解释。
表 4 | MOPD 在三个代表性领域的预热消融实验。
3.3.4. 结果与讨论
MOPD 结果分析。我们在表 5 中报告了主要的 MOPD 结果,其中 RLVR 表示初始学生检查点,MOPD1 和 MOPD2 分别表示第一和第二次 MOPD 迭代后的检查点。恢复率定义为 (MOPD2 − RLVR)/(Teacher − RLVR),表示 MOPD 弥补的师生性能差距的比例。MOPD 在整个评估套件中都优于 RLVR 学生,在代理基准(如 Terminal Bench、GDPVal、SWE-Bench Verified、TauBench Telecom 和 BrowseComp)和指令遵循/事实性基准(如 OmniScience、IFBench 和 Multi-Challenge)上都有很强的恢复能力。在几个基准上,MOPD 甚至超过了相应的专业教师,这表明通过合并多个教师的监督实现了积极的跨领域泛化。例如,我们发现 MOPD2 检查点在 Terminal Bench 的数据科学相关任务上显著优于教师,这表明可能存在从办公/生产力工作流中的知识迁移。总的来说,这些结果表明,当教师的优势可以表现为对学生已经能够采样的轨迹的词元级偏好时,MOPD 特别有效,例如工具使用决策、环境交互、弃权行为和多步执行模式。
MOPD 的局限性。在自包含的推理基准上,增益较小,尤其是 HLE。我们认为这反映了在线策略蒸馏设置的局限性,而非教师的失败。通用推理教师是从学生初始化的,但其增益来自于在由 DeepSeek-V4-Pro 生成的独立推理混合数据上进行的大规模 SFT 和 RL。学生没有直接看到这些数据。因此,教师的优势不仅仅是对学生已经产生的轨迹有不同的偏好;它还来自于通过额外的离线策略数据接触获得的能力。由于 MOPD 对学生生成的轨迹进行评分,当这些轨迹位于教师的支持范围内时,其学习信号最强。当缺失的能力需要学生很少采样的推理路径时,学生的 rollout 对于教师来说实际上是分布外的,使得词元级监督的信息量降低。
与预热实验的一致性。这种解释与表 4 中的预热消融实验一致。预热显著改善了代理领域中的 MOPD,因为学生 rollout 和教师支持的轨迹之间的重叠增加,使得教师评分更具信息量。相比之下,预热对 HLE 几乎没有影响,这表明剩余的差距更多地是由通用推理教师通过额外的 SFT/RL 训练引入的能力驱动,而不是由浅层的轨迹不匹配驱动。
表 5 | MOPD 在不同领域的结果,显示了相对于 RLVR 学生的增益以及向专业教师的恢复情况。
3.3.5. 局限性与开放问题
未解决的问题与未来研究方向。在本节中,我们将讨论 MOPD 中几个尚未解决且有待进一步研究的方面。在 MOPD 的开发过程中,我们评估了几种技术上可行但未能在我们当前实验设置下提升性能的变体。我们分享这些观察是为了让经验图景更完整,但不应将其解释为这些方法从根本上无效的证据。我们相信,通过进一步研究,这些方向可能会产生优于我们当前设置的 MOPD 方法,并鼓励社区继续探索。
* Logit 匹配。一个自然的替代采样词元目标的方法是分布级蒸馏,即训练学生在每个前缀处匹配教师对 top-k 词元或整个词汇表的预测分布。在我们的初步实验中,这些目标并未提高 MOPD 性能,并且在某些代理基准(如 Terminal Bench)上始终不如采样词元目标。我们推测,全分布匹配可能对从学生策略中采样的前缀施加了过强的局部约束,特别是当这些前缀在教师分布下的支持度有限时。在这种情况下,教师的 logits 可能会变得校准不佳或信息量减少,匹配全分布可能会放大来自非支持状态的噪声。相比之下,采样词元目标仅对已实现的动作施加监督,因此可能提供更稳定的在线策略学习信号。确定何时更广泛的分布监督是有益的,仍然是一个开放问题。
* MOPD 的基础。如上所述,当学生生成的轨迹保持在教师的支持范围内时,MOPD 最为有效,这使得教师能够提供可靠的监督。一种可能的方法是确保教师和学生在专业化之前共享一个统一的 SFT 阶段。另一种方法是首先开发专业教师,用它们生成 SFT 数据,然后在应用 RL 或 MOPD 之前用这些数据训练学生。由于时间和资源限制,我们没有在这个项目中系统地评估这些替代方案,将它们留给未来的工作。
* MOPD 在长时程任务上的应用。代理工作流需要多轮的工具调用和环境交互,而推理任务通常是单轮的。在 MOPD 中混合端到端的代理环境和推理环境时,我们观察到由于 rollout 时间差异巨大,训练效率显著下降。平衡效率和准确性需要复杂的训练基础设施以及精心的异步算法设计。在实践中,我们对大多数代理任务使用单轮 rollout,类似于 PivotRL(【141,Pivotrl: High accuracy agentic post-training at low compute cost,2026】)。这种方法表现相对较好,但端到端 rollout 是否能带来进一步的增益,以及如何使其对潜在的分布不匹配保持鲁棒(【126,Tcod: Exploring temporal curriculum in on-policy distillation for multi-turn autonomous agents,2026a】),仍是一个有待探索的领域。
3.4. MTP 增强
MTP 的原生支持。Nemotron 3 Ultra 遵循 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)的设计,通过在所有训练阶段都进行训练的多词元预测(MTP)头,原生支持推测解码。MTP 头是一个内部草稿生成器,它从骨干网络的隐藏状态中预测多个未来词元;在推理时,这些草稿词元会与骨干网络(目标模型)进行验证,通过拒绝采样(【62,Fast inference from transformers via speculative decoding,2023】)或朴素的 1-1 词元匹配,可以在一次验证步骤中接受多个词元。与 Nemotron 3 Super 一样,我们使用一个共享的 MTP 头公式,并递归应用多次 MTP 步骤,因此草稿的长度可以在不增加额外参数的情况下增长。
训练-推理不匹配问题。即使使用共享头,朴素的教师强制(teacher-forced)MTP 训练也与自回归 MTP 推理不匹配。设第一个 MTP 步骤的输入为 $(h_1, . . . , h_L)$,对应的输出为 $(h_{MTP1}^{L+1}, . . . , h_{MTP1}^{L+L'})$。在训练期间,第二个 MTP 步骤的输入是完整的移位序列 $(h_{MTP1}^{L+1}, . . . , h_{MTP1}^{L+L'})$,所有这些都源自前一个 MTP 步骤。然而,在推理时,条件结构不同:新产生的状态 $h_{MTP1}^{L+1}$ 是在关注先前骨干隐藏状态 $(h_1, . . . , h_L)$ 的情况下生成的,因此第二个 MTP 步骤的有效输入变为 $(h_1, . . . , h_L, h_{MTP1}^{L+1})$。再进一步,它变为 $(h_1, . . . , h_L, h_{MTP1}^{L+1}, h_{MTP2}^{L+2})$,随着草稿长度的增长,后续的 MTP 步骤以越来越嘈杂的目标模型和 MTP 生成的隐藏状态混合为条件。这种分布与教师强制的训练分布不同,并降低了在更深草稿位置的接受率。
MTP 增强训练过程。MTP 增强的目标是使 MTP 头在推理时遇到的输入条件或噪声下,能够匹配骨干网络的下一词元分布。为了解决这个问题,我们从 MOPD 检查点(第 3.3 节)开始继续训练 MTP。在整个训练阶段,骨干网络是固定的,只有 MTP 头接收梯度更新。这确保了没有回归骨干网络质量的风险,并显著减少了每一步的优化器状态和激活内存占用。在这个阶段,我们修改 MTP 的前向传播,使得在步骤 $k$ 传递给 MTP 作为输入的隐藏状态是从 MTP 步骤 1, ..., $k-1$ 产生的隐藏状态集合中采样的,而不是简单地取前一个 MTP 步骤生成的隐藏状态。这个过程在训练时让 MTP 头接触到与推理时遇到的类似噪声,从而产生一个能更优雅地处理更长草稿长度的草稿生成头。
数据。我们通过从 Nemotron-Post-Training-Dataset-v2 和 Nemotron-RLSuper-Training-Blends 中抽取的种子提示开始,使用第 3.3 节中描述的 MOPD 检查点生成在线策略 rollout,以分别覆盖通用和代理输入。Rollout 以 $T_{op-p}=1$ 进行采样。MTP 头在这些 rollout 上训练了 12K 步,全局批量大小为 64,序列长度上限为 8K 词元。损失在每个样本的助手响应上累积。
损失函数。我们使用一个温度缩放的前向 KL 损失来对抗骨干网络的 logits。标准的针对黄金词元的交叉熵项被禁用,因此 MTP 头匹配的是骨干网络的完整分布,而不是 one-hot 标签。设 $A$ 为助手词元位置的集合。对于每个助手词元位置 $i \in A$ 和 MTP 生成步骤 $k \in {1, . . . , k_{\text{mtp}}}$,设 $z_i$ 为位置 $i$ 的骨干网络 logits,$\hat{z}_{i,k}^{i+k}$ 为从位置 $i$ 开始的第 $k$ 步 MTP logits。增强目标是:
其中 $\sigma$ 表示 softmax 操作,$\tau = 2$ 是蒸馏温度,$k_{\text{mtp}} = 7$ 是 MTP 步骤数。$\tau^2$ 因子遵循(【45,Distilling the Knowledge in a Neural Network,2015】)。
结果。我们使用 SPEED-Bench(【2,SPEED-bench: A unified and diverse benchmark for speculative decoding,2026】)评估 MTP 准确率,测量定性数据分割中各个类别的每个样本的接受长度(ALs)。表 6 报告了按类别划分的平均 ALs。增强后的 MTP 头在所有草稿位置上都比基线 MTP 头带来了持续的增益,这种改进在训练-推理不匹配最明显的深层草稿位置尤为显著。
表 6 | 在 SPEED-Bench 定性分割上使用草稿长度 7 的 MTP 平均接受长度。主要数值通过贪婪解码获得;括号内的数值使用温度采样(Top_p=1)获得。MTP-Boosting 相比基础 MTP 持续增加接受长度,使得推测解码的相对速度提升从摘要任务的 3.15% 到编码任务的 5.82% 不等。
3.5. 推理效率与控制
多种推理模式。Nemotron 3 Ultra 训练了三种推理模式:无推理、常规推理和中等努力推理。常规和中等努力推理模式可以选择与推理时预算控制结合使用。这些控制组合提供了灵活性,覆盖了准确率-效率权衡的整个范围,以满足客户在各种应用场景中的需求,并补充了代理应用中如轮次限制等任务级控制。
中等努力模式的训练与效果。中等努力推理模式在 SFT 阶段引入,并在 RLVR 阶段进行优化。大约 2.5% 的 RLVR 训练提示处于中等努力模式,涵盖数学、STEM 和编码,并对它们的 RL 奖励进行了基于长度的调整。这个配方已经训练了 Nemotron 3 Ultra 和 Super,并且优化效果泛化到数学、STEM 和编码之外的各种任务,我们能够通过调整超参数来校准最终的努力模式。
准确率-效率对比。图 11 比较了 Nemotron 3 Ultra、Nemotron 3 Ultra 中等努力模式和 Nemotron 3 Super 与一组开源模型。y 轴是 Artificial Analysis Intelligence Index V4,x 轴是相对详细程度的度量,使用 Qwen 3.5 397B 在每个任务上的平均词元使用量作为参考,并在 AA Index V4 的 10 个任务上取平均值。它显示,Ultra 的中等努力模式平均使用的词元量比常规模式少约 2.5 倍,代价是准确率下降约 7%。
图 11 | 在 Artificial Analysis Intelligence Index V4 任务上的准确率-效率比较。
3.6. 基础设施
3.6.1. 使用多词元预测加速 Rollout 生成
RL 训练瓶颈。在 RL 和 MOPD 期间,我们使用单步离策略异步 RL 设置进行训练,因此 rollout 生成与策略更新是重叠的,步长时间受限于较慢的那个阶段。在我们的设置中,较慢的阶段通常是 rollout 生成,其时间又主要由一小部分运行时间远长于批次中其余部分的“掉队”生成所主导。为了加速 rollout 生成,我们使用多词元预测(MTP)进行推测解码。在每个解码迭代中,MTP 头被循环应用以提出 $k$ 个候选词元,基础模型在一次前向传播中验证这些词元。被接受的词元无需额外的顺序解码步骤即可提交。
MTP 加速效果。为了找到最佳的 $k$,我们对 $k \in {0, 3, 5, 7}$ 进行了扫描,其中 $k=0$ 是标准的无 MTP 基线。如图 12(a) 所示,启用 MTP 加速了 rollout 生成,其中 $k=5$ 相比基线带来了最大的 1.46 倍增益。检查一个代表性 rollout 步骤的每个轨迹的 rollout 时间(图 12(b)),我们发现 MTP 对于长尾(最慢)的生成特别有益。我们将其归因于多种因素的组合:这些长生成会发出更多的词元,并且它们在批次的末尾以较低的并发性进行解码,此时推测解码往往最有效。
图 12 | (a) RLVR 训练期间平均每步 rollout 生成时间与 MTP 词元数 $k$ 的关系。$k=5$ 相对于 $k=0$(无 MTP)的虚线基线实现了 1.46 倍的加速。(b) 一个代表性 RLVR rollout 步骤中,每个轨迹的 rollout 时间,比较了 $k=5$ 与无 MTP 的情况(轨迹按 rollout 时间排序),以及 MTP 节省的时间。益处集中在长尾(最慢)的生成上。
3.6.2. 扩展 RL 基础设施
生产集群与故障分析。我们的生产集群部署在 NVIDIA GB200 节点上,使用 Slurm 进行编排,并为沙箱执行配置了同地 CPU。观察到的 RL 软件故障分解如表 7 所示。实现高弹性需要通过系统的工具化和优化进行持续的工程努力,我们将在下面详细回顾。
表 7 | 故障归因。生成和沙箱/工具调用故障占了约 92% 的失败。
关键基础设施优化。
* Ray GCS 可扩展性和 Slurm 启动开销:NeMo-RL 作业是异构的,必须在不同节点子集上启动具有不同资源需求的不同角色(训练工作进程、vLLM 生成工作进程、gym 工作进程和评判工作进程)。最初,我们的 RL 启动脚本为每个节点发出多个独立的 srun 调用,这在规模扩大时成为瓶颈。通过重构为单个多节点 srun,我们将 Slurm 控制器交互减少到 O(1),启动成本从 30 多分钟降至 10 分钟。此外,Ray 的单线程全局控制服务(GCS)在 3K+ GPU 规模下被大量的 actor 注册所淹没。我们通过将短期 actor 转换为任务、池化每个节点的初始化 actor 以及应用积极的 GCS 调优,消除了 40% 的 actor 注册。Anyscale 在 Ray 2.55 公开发行版中解决了 GCS 的可扩展性回归问题。
* 拓扑感知的 NVLink 域放置:在 GB200 NVL72 上,NVLink 域跨越整个机架(18 个节点上的 72 个 GPU)。如果没有拓扑感知的工作进程放置,Megatron 的专家并行(EP)组可能会跨越多个机架,迫使 MoE 的 all-to-all 通信通过 InfiniBand 而不是 NVLink。解决方案是使排名分配具有域感知能力,确保 EP 组内的所有 GPU 都位于同一机架上。具体做法包括:在容器启动时探测并注册 NVLink 域信息作为 Ray 自定义资源;在 NeMo RL 的 RayVirtualCluster 内部根据拓扑对 bundle 进行排序;以及利用 SLURM_TOPOLOGY_ADDR 纠正混乱的 Slurm 块排序。这些更改将训练和生成 actor 共同定位在同一个 NVLink 域中,使 EP all-to-all 流量保持在 NVLink 上,从而在 GB200 上实现了 20% 的端到端吞吐量提升。
* 策略和 vLLM 工作进程的 NUMA 绑定:在 GB200 NVL72 上,每个计算托盘包含一个 Grace CPU,具有两个插槽和多个 NUMA 节点。GPU 与特定的 CPU 插槽物理关联。如果没有明确的 NUMA 绑定,工作进程可能会被调度到与其分配的 GPU 相对的远程插槽的 CPU 核心上,导致内存流量跨插槽传输,降低 GPU 内存带宽。解决方案是明确地将策略和 vLLM 工作进程绑定到其分配的 GPU 本地的 CPU 插槽。这确保了优化器状态卸载、分词、数据预处理和固定内存分配都命中本地 DRAM,并在 GB200 上实现了 10% 的端到端吞吐量提升。
* 检查点保存阻塞:同步检查点保存会阻塞训练约 60 秒。启用 Nvidia Resiliency Extension (NVRx) 的异步检查点,将暴露的阻塞时间减少到约 6-8 秒。通过重叠 NCCL 传输与 D2H 复制、使用持久化检查点工作进程、将检查点最终化移至后台线程以及缓存分布式保存计划等优化,进一步减少了阻塞。使用 Megatron Core 分布式优化器,将优化器状态分片到数据并行 rank 上,最终使暴露的保存时间减少到 <1 秒。
* JIT 缓存和初始化:在 1K+ GPU 规模下,冷启动初始化耗时约 49 分钟,其中 38.8 分钟主要用于 JIT 编译。解决方案是采用三管齐下的缓存管理策略:在共享存储上使用持久化暖缓存;在启动时在节点本地进行种子化;以及将预编译的 cubins 烘焙到容器镜像中。通过暖缓存,初始化阶段从 38.8 分钟降至 0.4 分钟,减少了 99%。
* 多节点 vLLM 操作稳定性:多节点 vLLM 使用 Ray 作为其分布式执行器。在规模扩大时,独立的 RL 堆栈组件安装不同版本的共享 GPU 内核库导致了 ABI 不匹配、子进程环境分歧以及与 NCCL 的多节点 NVLink 内存注册不兼容等问题。解决方案包括:统一所有组件的共享 GPU 内核库版本;在生成时显式转发库路径和环境变量;为受影响的内核路径禁用多节点 NVLink 内存注册;以及实现 vLLM 健康检查、RPC 超时和优雅关闭。
* 容器和存储 I/O:在规模扩大时,所有节点同时从共享存储读取容器镜像会导致 I/O 风暴。解决方案包括:使用 Enroot 的本地 squashfs 缓存来消除暖节点的共享存储读取负载;以及采用非对称读/写缓存路径,即 JIT 写入本地存储,而在作业完成时由单个指定进程将缓存归档回共享存储。
表 8 | 关键基础设施优化及其影响总结。
3.6.3. 未来工作
未来工作方向。当前的工作重点是两个主要的故障类别:快速失败的故障隔离,以防止重试和级联故障模式,从而实现组件级恢复,即单个生成工作程序或沙箱实例可以独立重启而无需整个作业重启。沙箱和工具调用基础设施正在被解耦,以消除级联故障并允许独立扩展。对进行中的 rollout、KV 缓存和对话状态进行细粒度检查点,通过从最后一个一致的快照而不是从头开始重放,进一步降低了恢复成本。
4. 量化
量化目标与方法。我们应用训练后量化(PTQ),使用 Model-Optimizer 将 Nemotron 3 Ultra 检查点量化为 NVFP4(【84,Introducing NVFP4 for Efficient and Accurate LowPrecision Inference,2025】),以便在 NVIDIA Blackwell GPU 上进行高效推理。每个操作符(GEMM、KVCache、Mamba Cache)的量化格式总结在表 12 中。我们从一个启发式的混合逐层精度配方开始,该配方基于 Model-Optimizer AutoQuantize 在 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)上的敏感性分析得出。然后,我们对模型的有效每元素比特数(BPE)和 FP4 权重化算法进行消融实验,以优化此配方并选择最终的操作点。
表 12 | Nemotron 3 Ultra 的量化配方,将每一层或操作符从其 BF16 基线映射。
4.1. 每元素比特数选择
BPE 选择过程。我们通过经验选择了模型的每元素比特数(BPE)预算,方法是在一系列 BPE 设置下量化一个固定的中间检查点,并根据一组精选的评估套件对每个设置进行评分。评估通过 Nemo Evaluator SDK 在 vLLM v0.20.0 上提供。我们提高了每个基准的重复次数以抑制运行间的方差,并报告平均的 pass@1 分数。该套件涵盖七个基准:编码(SciCode)、科学推理(GPQA Diamond、HLE、CritPt)、指令遵循和知识(IFBench、AA-Omniscience)以及长上下文推理(AA-LCR)。
BPE 扫描结果。结果总结在表 13 中。在这里,BPE 最好被理解为一系列量化配方的总结轴,而不是单个可调旋钮:BPE 较高的点对应于质的不同策略(仅对路由器进行量化、将最后一个 MoE 层保持在 BF16、以及跳过前 8 个最敏感的专家),每种策略都达到不同的有效 BPE。在整个扫描中,大多数能力在我们尝试的最低 BPE 时已经饱和。GPQA Diamond、SciCode、HLE、IFBench 和 AA-Omniscience 的准确率在整个 4.85–7.19 BPE 范围内都在运行间噪声内保持平稳。唯一的区分轴是长上下文推理:AA-LCR 在 4.85 → 5.03 的步骤中提高了 +2.4 点,然后一直稳定在 64.2–65.0,直到 7.19 BPE。这一步正是引入混合 FP8 层到 NVFP4-amax 配方中的地方,因此长上下文的恢复归因于那些有针对性的更高精度层,而不是一般的额外比特。
最终选择。在 5.03 BPE 以上,我们没有观察到进一步的增益:将预算增加到 7.19 BPE(比特数增加 43%)后,每个基准测试在噪声范围内都没有变化。因此,我们选择 5.03 BPE(带混合 FP8 的 NVFP4)作为操作点,因为它是恢复长上下文性能的最小预算,同时在更高精度下没有留下任何可测量的质量。我们注意到表 13 中有两个注意事项。首先,CritPt 的分数接近基准的底线(约 3-5%),并且在扫描中不单调;我们将其视为噪声主导,而不是决定性信号。其次,AA-Omniscience 的非幻觉率略微偏爱最低的 BPE(4.85 时为 54.13,而 5.03 时为 51.59);考虑到相对于其他轴的幅度,我们将其归因于方差而不是真正的精度权衡。
表 13 | 在一个固定的中间检查点上进行的每元素比特数(BPE)扫描,使用 Nemo Evaluator SDK 在 vLLM v0.20.0 上进行评估。列是有效 BPE 递增的量化配置;具体配方在 4.1 节中描述。行是平均 pass@1 分数,每行的最佳结果以粗体显示。阴影的 5.03 列(†带混合 FP8 的 NVFP4)是选定的操作点:它是恢复长上下文(AA-LCR)性能的最小预算,而在更高 BPE 下没有任何基准测试的改进超出运行间噪声。
4.2. FP4 算法实验
FP4 PTQ 算法探索。我们探索了专注于尺度选择的 FP4 PTQ 算法,围绕 5.03 的 BPE 设置,以研究不同算法对不同量化配置的影响。对于 FP4 输入激活,我们遵循默认的 NVFP4 PTQ 配方(【84,Introducing NVFP4 for Efficient and Accurate LowPrecision Inference,2025】),使用从校准统计中选择的基于最大值的缩放。然后我们只改变 FP4 权重尺度选择规则。因为这只改变 PTQ 期间计算的离线权重尺度,所以不需要额外的推理内核支持;检查点保持在标准的 NVFP4 推理路径上。在混合精度设置中,我们对 NVFP4 权重的不同算法进行消融,但保持 FP8 权重使用基于最大值的缩放。
权重缩放算法比较。对于权重,我们实验了基于最大值、基于 MSE 和 Four-Over-Six(【20,Four over six: More accurate nvfp4 quantization with adaptive block scaling】)的缩放。每种算法都会改变每个块的 NVFP4 尺度——基于最大值的缩放使用块的绝对最大值;基于 MSE 的缩放最小化重构误差(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】);而 Four-Over-Six 则在每个块的 $E=4$ 和 $E=6$ 权重网格之间进行选择,使用最小化重构误差的选项。表 14 比较了这些权重尺度选择策略在混合精度设置和 BPE 目标下的表现。我们发现,在 5.03 或 5.43 BPE 的更保守的量化设置中,MSE 略优于 max,而在 4.85 BPE 的激进量化设置中,它们相当。然而,Four-Over-Six 在平衡的 5.03 BPE 设置中显示出改进,但在 4.85 BPE 设置中则有较大退化。4.85 BPE 的退化可能是由于 mamba 线性层对异常值敏感,更偏好 max 尺度。
Four-Over-Six 算法优势。Four-Over-Six 将全局每张量权重尺度增加了 1.75 倍,并允许每个权重微块在 $E=4$ 和 $E=6$ 的 FP4 网格之间选择,其中 $E=4$ 使用比 $E=6$ 大 1.5 倍的块尺度。这以少量额外的零舍入为代价,换取了对高幅值尾部的更好处理,精神上类似于 MSE 校准。在完整的路由专家张量分析中,与标准最大值校准相比,最大值校准的 Four-Over-Six 将量化权重重构的中位数相对 MSE 降低了 16.4%,在来自 48 个 MoE 专家层的 49,152 个投影权重中均有改善。尽管 MSE 校准使权重 MSE 额外减少了 27.1%,但下游评估并未显示出跨基准的一致准确性提高。因此,我们选择 Four-Over-Six 来设置混合精度 5.03 BPE 设置中的 FP4 路由专家权重尺度。
表 14 | FP4 权重尺度选择消融实验总结,显示了在 6 个 AA 基准(GPQA、SciCode、HLE AA、IFBench、CritPT、Omniscience)上相对于 BF16 在一个中间检查点上的中位数准确率恢复情况。所有列的激活尺度均使用最大值校准,SSM 缓存使用 FP32。
4.3. 最终权重和 GEMM 量化配方
最终量化配方总结。总的来说,最终的 GEMM 和 MoE PTQ 配方结合了:
* NVFP4 路由专家 GEMM:动态基于最大值的激活缩放和最大值校准的 4/6 权重缩放。
* FP8 每张量 GEMM:用于共享专家和 Mamba 线性层;静态最大值校准的每张量尺度。
* BF16 精度:用于注意力线性层、MoE 潜在投影层(即,量化后准确性下降超过预期推理成本效益的层)。
效果与 BPE。这种组合减少了朴素 NVFP4 PTQ 的精度损失,同时保留了部署所需的运行时效率。最终的检查点以 5.03 每元素比特数(BPE)运行;BPE 的选择在第 4.1 节中有详细说明。最终的逐操作符精度分配总结在表 12 中。
4.4. Model-Optimizer 中的软件支持
量化框架选择。虽然 Model-Optimizer 支持 HuggingFace 和 Megatron-LM 进行量化,但由于 Ultra 的巨大尺寸,我们选择了 Megatron-LM,因为它具有高效的多节点分布式并行和 MoE 支持(【138,Scalable training of mixture-of-experts models with megatron core,2026】)。
Megatron-LM 优势。Megatron-LM 支持多节点推理和 n-D 并行,这使我们能够将模型分片到多个 GPU 和节点上,从而大大加快了量化速度。Megatron-LM 的专家并行和数据并行通过将专家分片到 GPU 上并启用大的全局批量大小(通过并行化模型前向传播)来加速校准。此外,上下文并行使我们能够扩展到超过 32k 词元的大序列长度,这有助于提高校准准确性。与 HuggingFace transformers 的比较表明,Megatron-LM 使我们能够更快地进行实验,并执行更复杂的多节点计算长序列实验(表 15)。
HuggingFace 框架对比。相比之下,Model-Optimizer 的 HuggingFace PTQ 脚本使用 transformers 原生推理,由于仅限于单进程执行,因此不支持多节点。Ultra 的 550B 参数大小意味着 BF16 模型约为 1.1TB,无法舒适地容纳在一个节点内,需要在 transformers 中对非活动层进行 CPU 卸载以进行推理。我们使用 transformers 在单个节点上通过 CPU 卸载逐层量化 Ultra。
框架适用性。根据您的个人资源和偏好,HuggingFace 和 Megatron-LM 都是量化大型模型的合适框架,其中 HuggingFace 逐层 PTQ 在 Ultra 上大约需要 2 小时,而 Megatron-LM 需要 42 分钟。
表 15 | HuggingFace transformers 与 Megatron-LM 的 PTQ 性能比较,包含计算设置、加载、校准和导出时间的详细信息。
4.5. SSM 缓存优化
Mamba 缓存瓶颈。在 Mamba 自回归解码中,SSM 状态存储在每个批次元素的固定大小缓存中。相比之下,KV 缓存的大小随序列长度增长。然而,存在一个交叉点,低于该点时 Mamba 缓存的大小大于 KV 缓存。例如,在 Nemotron 3 Ultra 中,32 位 Mamba 缓存比 FP8 KV 缓存在序列长度高达 64K 时更大。如图 14 所示。因此,根据序列长度和批量大小,Mamba 缓存可能成为 DRAM 占用瓶颈和限制解码速度的 DRAM 读取压力源。
缓存量化。为了解决这个问题,我们将 Mamba SSM 缓存从原始的 FP32 精度量化到更低的精度。遵循 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)的方法,我们首先采用 16 位缓存精度,其中带有随机舍入的 FP16 可以保持 FP32 缓存的准确性和详细程度。为了进一步提高缓存压缩率,我们还探索了 8 位 Mamba 缓存量化格式。我们在 Nemotron 3 Super 上对此进行了评估。与 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)一致,我们发现尾数精度和随机舍入是 Mamba 缓存量化后保持准确性的关键因素。带有随机舍入的块缩放 INT8 量化在很大程度上保持了 FP32 缓存的准确性和详细程度。FP8 E4M3 量化降低了准确性,可能是因为它为这些缓存值提供的有效精度低于 INT8。Mamba 缓存量化结果总结在表 16 中。
周期性缓存检查点。为了进一步减少 Mamba SSM 状态缓存引起的量化误差,我们探索了周期性缓存检查点的思想:我们不是在每个解码步骤中存储(因此量化)状态,而是在每 $CC$ 步存储一次,其中 $CC > 1$ 是一个整数。为了补偿状态的滞后,我们缓存输入激活,并应用激活重放来动态前向传播状态。这将顺序量化步骤的数量减少了 $CC$ 倍,并且由于节省了缓存写入,还可以节省时间(尽管与用于激活重放的额外计算和 IO 存在权衡)。我们使用模拟量化在 Nemotron 3 Super NVFP4 上进行了初步实验。结果总结在表 16 中。
当前实现。支持检查点的优化 8 位 Mamba 缓存内核正在开发中。对于当前版本,我们使用带有随机舍入的 FP16 SSM 缓存存储,如 Nemotron Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)中所述,这避免了块缩放的开销,同时减轻了朴素 FP16 四舍五入缓存存储中观察到的循环舍入偏差。
图 14 | 对于批量大小为 1 的情况,FP8 KV 缓存和不同缓存精度的 Mamba SSM 缓存的大小比较。
表 16 | Nemotron 3 Super NVFP4 模型上使用模拟量化的 Mamba 缓存检查点结果,相对于使用 FP32 Mamba 缓存的相同模型进行测量。CC 表示检查点周期。准确率和详细程度基于以下评估基准进行测量:MMLU Pro、GPQA、HLE、LiveCodeBench、IFBench、OmniScience、AA-LCR、Ruler 128K 和 Ruler 256K。对于这两个指标,越低越好。
4.6. 单一 NVFP4 检查点
单一检查点策略。我们为 Nemotron 3 Ultra 发布一个单一的 NVFP4 检查点,该检查点既针对 Blackwell(以原生 FP4 数学运行),也针对 Hopper(以 W4A16 运行,即权重为 NVFP4,激活为 BF16)。这是因为 Hopper 缺少原生的 FP4 张量核心。KV 缓存被量化为 FP8,Mamba 缓存数据类型为带有随机舍入的 FP16。
Hopper 上的性能考量。对于 Hopper 来说,一个自然的候选方案本应是一个独立的 FP8 检查点,以解锁 FP8 张量核心的数学运算。乍一看,W8A8 应该是 Hopper 的更好选择:FP8 张量核心的峰值吞吐量高于 W4A16 路径所依赖的 BF16 数学。但在 Nemotron 3 Ultra 的规模下,实践中情况恰恰相反。在一个 8-GPU H100 节点(总共 640 GiB HBM)上使用 TP=8,FP8 检查点(约 540 GiB)每个 GPU 大约只剩下 10 GiB 用于激活、KV 缓存和 Mamba 状态,而 NVFP4 检查点(约 330 GiB)则大约有 40 GiB。紧张的 FP8 缓存预算限制了我们关心的操作点的最大批量大小,这使得工作负载受限于内存带宽,并阻止我们达到 FP8 张量核心会发挥作用的计算密集型区域。测量的吞吐量-用户延迟帕累托图显示,在相关范围内,W4A16 等于或优于 W8A8。
MTP 带来的优势。一旦考虑到 MTP,单一 NVFP4 检查点的理由就变得更加充分。较小的 W4 占用空间留下了足够的空间,可以在同一个 8-GPU 节点上容纳 MTP 权重,而 FP8 检查点如果不扩展到两个 H100 节点并放弃单一 NVLink 域属性,就无法容纳 MTP。在 W4A16 路径上启用 MTP 后,吞吐量-用户延迟帕累托图在相关范围内既向上移动,又向低延迟区域延伸得更远,这是 W8A8 在任何操作点都无法达到的。
W4A8 的排除。第三种选择 W4A8,即 NVFP4 权重和 FP8 激活,原则上会将较小的权重占用与 FP8 张量核心数学结合起来。我们选择不发布它。简单地将 NVFP4 权重下转换为 FP8 会导致灾难性的精度下降:NVFP4 使用 E2M1 元素和 E4M3 块尺度,给出了一个有效范围超过 FP8 的 E4M3 的 E6M4 表示,因此产生的权重会饱和。因此,保持精度需要 W4 → BF16 → FP8 的往返转换,而不是直接的 W4 → FP8 转换,这在每个 GEMM 之前增加了一个额外的转换操作。结合上面的结果,即使纯 W8A8 在我们的区域内也比 W4A16 慢,额外的操作使得 W4A8 严格劣于 W4A16,且没有精度上的优势。
表 17 | 单一 NVFP4 检查点部署为 W4A16(NVFP4 权重,BF16 激活)和 NVFP4(W4A4,原生 FP4;Blackwell 路径)时的准确率和详细程度,与 BF16 参考值对比。分数为 pass@1;Tok. 是平均完成长度(以词元为单位)。每个任务的更高分数以粗体显示。W4A16 在五个任务中的四个(除 HLE 外)优于 NVFP4,在五个任务中的四个(除 HLE 外)与 BF16 持平或更高,并且在五个任务中的四个(除 AA-Omniscience 外)产生的完成词元不多于 NVFP4。
表 18 | Nemotron 3 Ultra 的 BF16 和 NVFP4 评估套件比较。BF16 使用 vLLM 0.17.1,NVFP4 使用 vLLM 0.22.0。
5. 推理
推理感知架构。Nemotron 3 Ultra 继承了 Nemotron 3 Super(【85,Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning,2026】)的推理感知架构:LatentMoE(【34,LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts,2026】),它通过牺牲隐藏维度宽度来换取在固定推理成本下更多的路由专家;一个带有稀疏全局 Attention 锚点的混合 Mamba-2 栈,它在预填充(prefill)期间提供了亚二次的序列长度缩放,并在解码(decode)期间提供了有界的 KV 缓存占用;以及用于原生推测解码的多词元预测(见 §2)。下面我们首先描述这些选择在不同服务场景中的实际表现——预填充密集型与解码密集型工作负载,以及小批量与大批量操作——然后转向在服务这种规模的模型时变得重要的考虑因素,这些因素在 Nemotron 3 Super 或 Nemotron 3 Nano 的规模上并不构成限制。量化配方和 SSM 状态缓存处理在 §4 中介绍;头条的吞吐量比较出现在 §1。
5.1. 不同服务场景下的性能
性能与操作点的关系。Nemotron 3 Ultra 的有效推理性能强烈依赖于操作点:工作负载的预填充/解码平衡以及服务时的批量大小。我们将在下面分别描述。
不同工作负载下的吞吐量。图 15 比较了 GB200 NVL72 上的最大吞吐量服务,针对两种代表性设置:一种是解码密集型 8K 输入 / 64K 输出工作负载,另一种是预填充密集型 50K 输入 / 2K 输出工作负载,两者都使用 NVFP4 精度且禁用了推测解码。预填充是计算密集型的,因此每个词元的成本与 FLOPs 相关,而 FLOPs 由活动参数的数量决定;Nemotron 3 Ultra 相对于 Qwen-3.5-397B-17B 大约有 3.2 倍的 FLOPs 惩罚(55B 对 17B 活动参数),因此 MoE GEMM 是主要瓶颈,Nemotron 3 Ultra 在预填充密集型工作负载上落后。在大批量解码中,路由基本上会激活所有专家,每步成本由总权重 I/O 决定,此时差距缩小到约 1.39 倍(550B 对 397B 总参数)。由于 MoE 惩罚大大减小,词元混合机制成为决定性因素,Nemotron 3 Ultra 的 Mamba-2 状态空间层,其每步解码成本与序列长度无关,使其在解码密集型工作负载上领先,尽管在预填充上落后。
混合模型的推测解码。多词元预测(见 §2)通过运行草稿头和验证候选词元来减少主模型的前向传播次数。操作点取决于批量大小:在小批量下,每次传播的成本主要由权重读取主导,验证开销很小,高草稿长度对延迟有利;在大批量下,每次传播的成本主要由计算主导,验证开销会侵蚀吞吐量,较低的草稿长度或禁用 MTP 通常更有利。我们将草稿长度作为部署时可调的参数。图 16 在一个代表性的低延迟操作点上扫描了草稿长度:在单个 GB200 节点上,TP=4,NVFP4 检查点用于单个用户工作负载,ISL/OSL/BS = 10K/16K/1。
混合模型的状态回滚。混合 Mamba 模型提出了第二个问题:当草稿词元被拒绝时如何回滚状态。对于纯 Attention 模型,这是一个逐词元的 KV 截断;然而,Mamba SSM 状态是每个序列一个固定大小的条目,每个词元都会被覆盖,因此没有直接可用的对应于早期词元的状态。我们通过在每个草稿步骤快照 SSM 状态来解决这个问题。同样的快照机制,以更粗的频率(每固定数量的词元)运行,也为我们提供了跨请求的前缀缓存,这对于 Mamba 来说是否则不可用的,因为在纯 Attention 模型中,前缀重用是逐词元 KV 缓存的自然结果。
图 15 | 在解码密集型(8K/64K)和预填充密集型(50K/2K)ISL/OSL 设置下的相对吞吐量,均以 GLM-5.1 为基准进行归一化。解码密集型设置和测量方法与图 1 匹配。Nemotron 3 Ultra 在解码密集型设置上领先(比 Qwen-3.5 高 1.6 倍),但在预填充密集型设置上落后于 Qwen-3.5,这与文本中关于活动参数(预填充)与总权重 I/O(解码)的分析一致。
5.2. Ultra 规模的推理
并行策略选择。Nemotron 3 Ultra 太大,无法放在单个 GPU 上,必须跨多个 rank 进行并行化。相关的轴是张量并行(TP,将每个线性层的权重矩阵分片到 rank 间)、专家并行(EP,将完整的路由专家分布到 rank 间,而 Attention 和 Mamba 保持数据并行),以及两者的组合。在小批量下,推理受限于权重读取的内存带宽,更宽的 TP 更有优势。在大批量下,激活张量的通信成为瓶颈,EP 更有优势。对于 Nemotron 3 Ultra,这使得宽 EP 成为高吞吐量服务的实际选择,宽 TP 成为低延迟服务的实际选择。宽 EP 服务尤其需要跨数据并行 rank 的仔细负载均衡。GB200 NVL72 非常适合所有这些配置,最显著的是高吞吐量:所有 72 个 GPU 共享一个 NVLink 域,因此宽 EP 可以跨越整个系统而无需在 all-to-all 路径中为跨域互连付费。
混合模型的预填充-解码分离。预填充(Prefill)和解码(decode)对硬件的压力截然不同;因此,在单个副本上同时服务这两个阶段会强制在两个需求迥异的工作负载上使用单一的并行配置和调度策略。预填充-解码分离,即在具有各自并行和调度策略的独立工作进程上运行这两个阶段,是公认的解决方案,我们为 Nemotron 3 Ultra 采用了这种方法。分离需要在每个请求上将 KV 缓存从预填充工作进程传输到解码工作进程;对于混合 Mamba-Attention 模型,需要特别注意确保 KV 缓存和 Mamba SSM 状态都正确传输。我们提交了必要的上游更改,包括识别混合缓存组的语义 KV 事件元数据路径和多节点 Ray 所需的 NIXL 侧通道主机解析修复,现在混合 Mamba-Attention 模型的分离在 vLLM(【56,Efficient Memory Management for Large Language Model Serving with PagedAttention,2023】)中开箱即用。端到端来看,我们目前在预填充密集型工作负载上通过分离测量到大约 10% 的吞吐量提升,并期望随着软件栈的成熟获得进一步的增益。
图 16 | NVFP4 检查点在单个用户工作负载(ISL/OSL/BS = 10K/16K/1,单个 GB200 节点,TP=4)上作为 MTP 草稿长度函数的解码吞吐量,使用在 SPEED-Bench 基准上测量的接受长度(【2,SPEED-bench: A unified and diverse benchmark for speculative decoding,2026】)。虚线是无 MTP 基线;吞吐量在 DL=6 时达到峰值,带来了 2.89 倍的加速,然后随着验证开销超过边际接受增益而逐渐回落。
All-to-all 后端。在专家并行下,路由专家的 all-to-all 是 MoE 服务期间主要的 rank 间通信。在预填充密集型工作负载(50K 输入 / 2K 输出词元)上,它约占总运行时间的 15% 到 20%。默认的 vLLM 方案将此 all-to-all 实现为 AllGather 后跟 ReduceScatter,这种方式简单、无依赖且拓扑无关,但本质上是浪费的。我们评估了几个真正的 all-to-all 后端,并采用了 FlashInfer 的 NVLinkOneSided 实现(【87,Optimizing MoE communication with one-sided alltoall over NVLink,2026b】)作为在 GB200 NVL72 上服务 Nemotron 3 Ultra 的最佳端到端选择。端到端我们测量到,与默认 vLLM 方案相比,该后端带来了约 5% 的吞吐量提升。一个更根本的替代方案是完全避免 all-to-all:DWDP(【86,DWDP: Distributed weight data parallelism for high-performance LLM inference on NVL72,2026a】)保持执行的数据并行,而是将每一层的专家权重拉到每个 rank,并在前面的计算后预取,以隐藏传输。
预填充和 MoE 分块。在预填充密集型工作负载(例如 50K 输入 / 2K 输出)上,自然的调度选择是在请求级别对预填充进行分块,以便分块可以与解码前向传播交错。小分块在中高批量大小时几乎不留下纯解码过程,损害了用户交互性(TPOT),而在大批量大小时,每个请求的预填充过程数量可能超过解码过程的数量。增加分块大小可以解决这个问题,但在宽专家并行下会暴露出第二个问题:虽然 Attention 和 Mamba 是 DP 分片的,每个 rank 只处理 concurrency/DP 个请求,但路由专家内核处理的是来自所有数据并行 rank 的词元联合。因此,大的预填充分块会将路由专家内核推向一个内核级资源限制成为瓶颈的区域。解决方案是在 MoE 内核本身进行 MoE 侧分块,拆分词元批次,这样分块大小可以增长而不会触及这些限制。我们在 vLLM 中上游提交了此修复。
GEMM 维度和权重填充。张量并行因子、量化格式和目标硬件的几种组合使得每个 rank 的 GEMM 维度大小违反了内核对齐要求。在每种情况下,我们采取的路线都是在加载时填充受影响的权重矩阵,以便内核看到可接受的形状,并调整运行时基础设施以忽略填充位置。例子包括 MoE NVFP4 内核的隐藏或中间维度对齐要求超出了架构自然产生的大小,以及 Hopper 上的 Marlin NVFP4 线性核和 MoE 内核对其输入施加的 tile 和线程级对齐约束。未来模型代的一个自然改进是选择模型的内部维度,使得所有预期的(TP、量化、硬件)元组都能产生无需加载时填充的内核友好形状。
A4 实验环境
-
硬件配置:
- 训练和推理主要在 NVIDIA GB200 节点(包括 NVL72 配置)和 H100 GPU 上进行。
- 集群使用 Slurm 进行作业编排。
- GB200 NVL72 节点包含 Grace CPU 和 Blackwell GPU,通过 NVLink-C2C 互连,整个机架(72个GPU)构成一个 NVLink 域。
-
软件配置:
- 核心框架:NeMo、Transformer Engine、Megatron Core
- 推理服务:TRT-LLM、vLLM (v0.17.1, v0.20.0, v0.22.0 等版本)
- 分布式计算:Ray (包括 Ray 2.55 公开发行版)
- 量化工具:Model-Optimizer
- 评估框架:Nemo Evaluator SDK、Nemo Gym、Nemo Skills、Harbor、LM Evaluation Harness
- 底层库:cuBLAS、NCCL、FlashInfer
- 操作系统/容器:使用基于 squashfs 的容器,通过 Enroot 进行缓存管理。
-
模型架构:
- 模型名称:Nemotron 3 Ultra
- 总参数量:5500 亿 (550B)
- 活跃参数量:550 亿 (55B)
- 架构:混合专家(MoE)混合 Mamba-Attention 架构,使用 LatentMoE。
-
数据集:
- 预训练:总计 20 万亿词元。数据源包括高质量过滤和合成的网络爬取数据、finepdfs、数学数据(Nemotron-CC-Math)、代码数据(Nemotron-Pretraining-Code-v3)、维基百科、学术文本、法律数据(Nemotron-Pretraining-Legal-v1)、多语言数据(11种语言)、Crawl++(OpenWebText, BigScience, Reddit)以及合成的 SFT 风格数据。
- 后训练(SFT/RL/MOPD):使用了大量多样化的数据集,包括 Nemotron-Posttraining-v3、OpenResearcher、OpenCodeReasoning、SWE-bench、LMArena、WildChat、ACE-RTL 等,覆盖代理、推理、代码、安全、聊天、多语言等多个领域。
A4 实验结果
基础模型评估
Nemotron 3 Ultra 基础模型在多个基准测试中展现出与业界顶尖开源基础模型(如 DeepSeek V3.2、Mistral Large 3、Kimi-K2 等)相媲美或更优的性能。如 表 2 所示,在通用知识(MMLU-Pro)、数学推理(GSM8K)、代码(HumanEval)、常识推理以及长上下文(RULER)等多个方面,Nemotron 3 Ultra Base 均取得了极具竞争力的分数,特别是在长上下文 RULER 1M 测试中,其性能领先。
后训练模型评估
后训练的 Nemotron 3 Ultra 模型在一个全面的评估套件中与六个顶级的开源模型进行了比较,结果如 表 10 所示。
- 代理能力:在多种代理任务中表现出色,包括终端操作(Terminal-Bench 2.1)、办公效率(GDPVal)、软件工程(SWE-Bench Verified)、深度研究(ProfBench)和网页浏览(BrowseComp)等。特别是在作为“泛化能力门禁”的 PinchBench 和 ProfBench 这两个未用于开发过程的基准上,Nemotron 3 Ultra 取得了与体量更大的模型(如 Kimi-K2.6 1T)相当的成绩,证明了其强大的泛化能力。
- 推理与知识:在奥林匹克级别的编程竞赛 IOI 2025 中,获得了相当于人类前三名的分数。在数学推理 IMO-AnswerBench(带工具)上取得了 92.3 的高分,显示了其有效的工具集成推理能力。在 AA-Omniscience 事实性评估中,获得了 78.7 的最高分,表明其幻觉率较低,可靠性更高。
- 长上下文与多语言:模型支持高达 1M 的上下文长度,并在 AA-LCR、RULER 和 LongBench v2 等长上下文基准上表现出竞争力。在多语言推理和翻译基准 MMLU-ProX 和 WMT24++ 上也取得了强大的性能。
- 测试时计算扩展:通过高计算量的搜索策略,Nemotron 3 Ultra 在奥林匹克级别的数学问题(如 IMO-ProofBench Advanced)上取得了当前最佳(SOTA)的性能(表 11 和 图 13)。
量化与推理性能
- 量化性能:通过精细的量化配方选择(表 13、表 14),最终的 NVFP4 模型(有效 BPE 5.03)在几乎不损失准确率的情况下(表 17、表 18),实现了高效的推理。例如,W4A16(Hopper 部署模式)在多数任务上与 BF16 基线性能持平或略优。
- 推理吞吐量:Nemotron 3 Ultra 的混合 Mamba-Attention 架构使其在解码密集型任务中表现卓越。如 图 1 和 图 15 所示,在 8K 输入/64K 输出的设置下,其吞吐量远超 Qwen-3.5 等模型(高达 1.6 倍)。通过 MTP 推测解码,在低延迟场景下可获得近 3 倍的解码吞吐量提升(图 16)。
A5 结论
我们推出了 Nemotron 3 Ultra,这是我们迄今为止最强大的模型,拥有 5500 亿总参数和 550 亿活跃参数。Nemotron 3 Ultra 采用 MoE 混合 Mamba-Attention 架构,结合 LatentMoE 和 MTP 技术,以实现最佳的推理性能和准确率。Nemotron 3 Ultra 在 20 万亿文本词元上进行了预训练,随后通过 SFT、RL 和 MOPD 进行了后训练。我们展示了我们的模型在达到与其他顶尖开放 LLM 相当的准确率的同时,获得了高达 5 倍的推理吞吐量。我们将在 HuggingFace 上开源 Nemotron 3 Ultra 的预训练、后训练和量化检查点,以及相关的训练数据。
A6 附录
A.1. 基准测试细节
基准测试具体设置。我们提供以下特定基准测试设置的详细信息。
* TauBench V3。为了缓解用户模型的过早终止问题,我们在所有领域的用户模拟中增加了一个额外的提示。对于银行业务领域,我们使用了 (terminal_use) 设置,允许代理通过终端工具在知识库中搜索。DeepSeek-V4 模型在最大推理模式下进行评估。用户模拟器:GPT-5.2(低推理努力)。8 次试验平均值。
* ProfBench (Search)。我们使用 ProfBench(【130,Profbench: Multi-domain rubrics requiring professional knowledge to answer and judge,2026b】)来评估模型在专业工作领域的深度研究能力——具体包括金融 MBA、咨询 MBA、化学博士和物理博士的科学研究。ProfBench 的任务基于真实世界的工作流程,并由在这些领域工作的专业人士标注的评分标准进行评判。具体来说,我们启用了搜索工具和浏览工具进行评估,以便模型能从互联网上识别相关上下文。我们在 256K 上下文长度下运行所有评估,不进行任何上下文管理,并报告 16 次平均得分。
* Browsecomp。我们使用一个自定义的代理搜索框架来评估 BrowseComp,该框架使用 Tavily 作为搜索和浏览提供商,并提供终端访问。为避免将所有检索到的网页内容加载到模型上下文中,搜索和浏览结果被持久化到每个任务的磁盘工作区;模型只接收元数据/摘要,并可以使用如 grep、head 和 sed 等 shell 命令有选择地检查保存的页面。这使得模型能够精确地检索相关证据,减缓上下文增长,并在上下文重置后保留所有先前收集的搜索信息。
* http://Vals.ai Finance Agent Benchmark (FAB v1.1)。我们评估了 http://Vals.ai Finance Agent Benchmark(【13,Finance agent benchmark: Benchmarking llms on real-world financial research tasks,2025】),该基准测试代理在入门级金融分析师任务上的表现,涵盖从简单检索到金融建模和市场分析的九个不同类别。虽然完整基准测试报告了一个包含 337 个问题的私有测试集,但我们评估了 200 个问题:50 个公开可用的验证样本,外加 150 个来自私有许可验证集的额外样本。在无网络搜索条件下,代理被提供四种工具:EDGAR 搜索(通过 SEC API)、一个 HTML 页面解析器、一个用于查询先前提取内容的检索工具,以及一个用于生成最终答案的提交工具。在网络搜索条件下,还额外提供第五个工具,即通过 Tavily 的 Google 网络搜索。由于该基准测试基于 SEC 文件,大多数问题预计可以直接从 EDGAR 中找到答案;网络搜索作为补充信号。准确性是与专家编写的基准答案进行比较,使用 LLM-as-judge(GPT-5.2,三次评估的众数)进行评判。我们严格遵循开源的评估框架。
A.2. 框架鲁棒性
框架鲁棒性。框架鲁棒性是 Nemotron-3 Ultra 后训练阶段的关键部分。我们将所有任务分布分为五个垂直领域,包括:
* 从零到一的终端使用和软件工程任务
* 现有仓库的错误修复任务
* 办公和通用生产力任务
* 通用/多领域知识任务
* 搜索任务
多框架训练。对于这些输入任务分布中的每一个,我们确保模型在以下至少两个框架下进行训练:
* Stirrup
* OpenHands
* OpenCode
* Terminus
* Droid
* 自定义内部框架
泛化与鲁棒性。防止模型在任何给定的任务分布下仅在单个框架下训练,有助于在真实世界动态执行环境中使用模型时获得更好的泛化和鲁棒性。Nemotron 3 Ultra 在不同框架上的性能如图 17 所示。
图 17 | SWE-bench Verified 和 Terminal-Bench 2.1 上的代理和模型矩阵。
💬 评论讨论
欢迎在这里分享您的想法和见解!