KIMI K2.5: VISUAL AGENTIC INTELLIGENCE

Kimi Team

A1 主要贡献

本文介绍了 Kimi K2.5,这是一个旨在推进通用智能体能力(General Agentic Intelligence)的开源多模态模型。K2.5 的核心贡献在于强调文本与视觉的联合优化(Joint Optimization),使两种模态相互增强,以及引入了并行智能体编排框架 Agent Swarm。

主要贡献点如下:
1. 文本与视觉的联合优化:通过一系列技术实现,包括联合文本-视觉预训练(Joint text-vision pre-training)、零视觉监督微调(Zero-vision SFT)以及联合文本-视觉强化学习(Joint text-vision RL)。这种联合优化不仅增强了多模态能力,还通过视觉强化学习反向提升了纯文本任务的表现。
2. Agent Swarm 框架:提出了一种自主的并行智能体编排框架。该框架能够动态地将复杂任务分解为异构的子问题,并由专门的子智能体并发执行。
3. 性能提升:Kimi K2.5 在编码、视觉、推理和智能体任务等多个领域均取得了最先进(SOTA)的结果。Agent Swarm 相比单智能体基线,推理延迟降低了高达 4.5 倍。
4. 开源贡献:为了促进未来的研究和实际应用,团队发布了 Kimi K2.5 的 Post-trained 模型权重。

图 1:Kimi K2.5 主要结果。
图 1:Kimi K2.5 主要结果。

A2 方法细节

2 文本与视觉的联合优化

原生多模态预训练策略
对于多模态预训练中“在固定的视觉-文本 Token 预算下,何种联合训练策略最优”这一关键问题,K2.5 提出了与传统观点不同的见解。传统观点通常建议在 LLM 训练的后期以高比例(如 50% 或更高)引入视觉 Token。然而,作者的消融实验(如 Table 1 和 Figure 9 所示)表明,视觉比例对最终的多模态性能影响微乎其微。实际上,在固定的总预算下,采用较低视觉比例的早期融合(Early fusion)效果更好。因此,K2.5 采用了原生多模态预训练策略:不采用后期集中的大量视觉训练,而是在整个训练过程中早期集成适度的视觉比例,使模型在长期的模态协同优化中自然发展出平衡的多模态表征。

表 1:不同视觉-文本联合训练策略的性能比较。在固定的总视觉-文本 Token 预算下,采用较低视觉比例的早期融合产生了更好的结果。
表 1:不同视觉-文本联合训练策略的性能比较。在固定的总视觉-文本 Token 预算下,采用较低视觉比例的早期融合产生了更好的结果。

零视觉 SFT(Zero-Vision SFT)
预训练的视觉语言模型(VLMs)并不天然具备基于视觉的工具调用能力,且缺乏高质量的多模态思维链(CoT)数据。作者观察到高质量的文本 SFT 数据相对丰富且多样,因此提出了零视觉 SFT 方法。该方法仅使用文本 SFT 数据来激活后训练阶段的视觉智能体能力。具体而言,所有的图像操作都通过 IPython 中的编程操作进行代理,这实际上是对传统视觉工具使用的泛化。这种“零视觉”激活实现了多样化的推理行为(如通过二值化和计数进行对象大小估计),并能泛化到对象定位、计数和 OCR 等视觉任务中。实验表明(Fig 2),零视觉 SFT 足以激活视觉能力并保证跨模态的泛化,而添加人类设计的视觉轨迹反而可能损害泛化性,这得益于联合预训练建立的强视觉-文本对齐。

联合多模态强化学习(Joint Multimodal RL)
在零视觉 SFT 之后,模型需要进一步优化以可靠地将视觉输入纳入推理。作者首先采用了基于结果的视觉 RL(Outcome-Based Visual RL),针对需要视觉理解才能正确解答的任务(如视觉定位计数、图表文档理解、视觉关键的 STEM 问题)进行训练。提取这些轨迹进行拒绝采样微调(RFT),建立了一个自我改进的数据管道。
随后,作者发现视觉 RL 能提升文本性能。评估显示,视觉 RL 不仅增强了视觉能力,还在纯文本基准(如 MMLU-Pro 和 GPQA-Diamond)上带来了显著提升(Table 2)。这表明视觉 RL 增强了结构化信息提取的校准能力,有助于跨模态泛化。
基于此,K2.5 在后训练阶段采用了联合多模态 RL 范式。不同于传统的按输入模态划分专家,K2.5 按能力(知识、推理、编码、智能体等)组织 RL 领域。这些领域专家从纯文本和多模态查询中共同学习,生成式奖励模型(GRM)也跨越模态界限进行优化,从而最大化跨模态能力的迁移。

图 2:从最小的零视觉 SFT 开始,视觉基准测试上的视觉 RL 训练曲线。通过扩展视觉 RL FLOPs,性能持续提高,表明零视觉激活配合长期运行的 RL 足以获得稳健的视觉能力。
图 2:从最小的零视觉 SFT 开始,视觉基准测试上的视觉 RL 训练曲线。通过扩展视觉 RL FLOPs,性能持续提高,表明零视觉激活配合长期运行的 RL 足以获得稳健的视觉能力。
表 2:跨模态迁移:视觉 RL 提升文本知识能力
表 2:跨模态迁移:视觉 RL 提升文本知识能力

3 Agent Swarm(智能体群)

并行智能体编排的设计初衷
现有的智能体系统主要依赖于推理和工具调用的顺序执行,这在面对复杂、长视界(long-horizon)任务时会遇到瓶颈,导致推理深度和工具调用预算耗尽。为了解决这一问题,K2.5 引入了 Agent Swarm并行智能体强化学习(PARL)。K2.5 不再将任务作为单一推理链执行,而是通过动态任务分解、子智能体实例化和并行子任务调度来启动 Agent Swarm。系统并非预设并行化总是更有利,而是通过环境反馈和 RL 驱动的探索来学习何时以及如何进行并行化。

图 3:Agent Swarm 拥有一个可训练的编排器(Orchestrator),它动态创建专门的冻结子智能体,并将复杂任务分解为可并行的子任务,以实现高效的分布式执行。
图 3:Agent Swarm 拥有一个可训练的编排器(Orchestrator),它动态创建专门的冻结子智能体,并将复杂任务分解为可并行的子任务,以实现高效的分布式执行。

架构与学习设置
PARL 框架采用解耦架构,包含一个可训练的编排器(Orchestrator)和从固定中间策略检查点实例化的冻结子智能体(Frozen Subagents)。这种设计避免了端到端的联合优化,从而规避了信用分配模糊和训练不稳定性这两个挑战。在这个多智能体设置中,子智能体被冻结,其输出被视为环境观察结果,而非可微分的决策点。为了提高效率,首先使用小规模子智能体训练编排器,然后过渡到较大模型。

PARL 奖励函数
为了训练可靠的并行编排器,PARL 定义了如下奖励函数:

$$r_{\mathrm{PARL}}(x, y)=\lambda_{1} \cdot \underbrace{r_{\text {parallel }}}_{\text {instantiation reward }}+\lambda_{2} \cdot \underbrace{r_{\text {finish }}}_{\text {sub-agent finish rate }}+\underbrace{r_{\text {perf }}(x, y)}_{\text {task-level outcome }}$$


其中 $r_{perf}$ 评估任务的整体成功率。$r_{parallel}$ 是为了减轻“串行坍缩”(即编排器默认为单智能体执行)而引入的奖励,鼓励探索并发调度空间。$r_{finish}$ 奖励关注已分配子任务的成功完成,用于防止“虚假并行”(即编排器生成大量子智能体但无实际意义的任务分解)。超参数 $\lambda_1$ 和 $\lambda_2$ 在训练过程中会逐渐退火至零。

图 4:在我们的并行智能体强化学习环境中,训练准确率随着训练的进行平稳上升。同时,训练期间的并行度也逐渐增加。
图 4:在我们的并行智能体强化学习环境中,训练准确率随着训练的进行平稳上升。同时,训练期间的并行度也逐渐增加。

关键步骤(Critical Steps)作为资源约束
为了衡量并行智能体设置中的计算时间成本,作者定义了关键步骤,类比于计算图中的关键路径。一个 Episode 被建模为一系列执行阶段 $t=1,...,T$。总关键步骤定义为:

$$ \text{CriticalSteps} = \sum_{t=1}^{T} \left( S_{\text{main}}^{(t)} + \max_{i} S_{\text{sub},i}^{(t)} \right). $$


其中 $S^{(t)}_{main}$ 是主智能体的步数,$S^{(t)}_{sub,i}$ 是第 $i$ 个并行子智能体的步数。该指标受该组中运行时间最长的子智能体控制。通过使用关键步骤而非总步骤来约束训练和评估,框架明确激励有效的并行化,鼓励编排器以最小化端到端延迟的方式分配工作。

并行能力诱导的提示构建
为了激励编排器利用并行化优势,作者构建了一套合成提示(Synthetic Prompts),旨在对顺序执行施加压力。这些提示强调广度搜索(需同时探索多个独立信息源)或深度搜索(需多个推理分支且延迟聚合),以及模拟现实工作负载(如长文档分析)。这些任务在顺序执行时难以在固定预算内完成,从而自然地促使编排器采用并行分解策略。

4 方法概览

基础模型与架构
Kimi K2.5 建立在 Kimi K2(万亿参数 MoE 模型)之上。其多模态架构包括三个部分:MoonViT-3D(原生分辨率视觉编码器)、MLP 投影层和 Kimi K2 MoE 语言模型。
* MoonViT-3D:为了最大化图像理解能力向视频的迁移,引入了 MoonViT-3D。它采用了统一架构和共享参数空间,通过将 NaViT 的“Patch n' Pack”策略推广到时间维度,将多达 4 帧连续帧视为一个时空体(Spatiotemporal Volume)。这使得相同的注意力机制可以无缝处理空间和时间。
* 视频压缩:在 MLP 投影之前,引入了轻量级的时间池化,将每个时间块内的 Patch 进行聚合,实现了 4 倍的时间压缩,从而显著扩展了可处理的视频长度。

预训练流程
预训练分为三个阶段(如 Table 3 所示):
1. ViT 训练阶段:MoonViT-3D 从 SigLIP 继续预训练,使用图像/视频-文本对。采用两阶段对齐策略:首先通过 caption loss 将 MoonViT-3D 与 Moonlight-16B-A3B 对齐,然后仅更新 MLP 投影层以桥接 ViT 与 1T LLM。
2. 联合训练阶段:在 K2 检查点的基础上,对额外的 15T 视觉-文本 Token 进行联合预训练。数据配方增加了代码相关内容的权重。
3. 长上下文中间训练(Mid-training):使用高质量数据和 YaRN 插值顺序扩展上下文长度,激活长上下文理解能力。

表 3:训练阶段概览:数据构成、Token 数量、序列长度和可训练组件。
表 3:训练阶段概览:数据构成、Token 数量、序列长度和可训练组件。

后训练:强化学习
RL 阶段通过统一智能体强化学习环境(Unified Agentic RL Environment)进行。
* 策略优化:使用了带有 Token 级裁剪机制的优化目标:

$$L_{\mathrm{RL}}(\theta)=\mathbb{E}_{x \sim \mathscr{D}}\left[\frac{1}{N} \sum_{j=1}^{K} \sum_{i=1}^{\left|y_{j}\right|} \operatorname{Clip}\left(\frac{\pi_{\theta}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}{\pi_{\text {old }}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}, \alpha, \beta\right)\left(r\left(x, y_{j}\right)-\bar{r}(x)\right)-\tau\left(\log \frac{\pi_{\theta}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}{\pi_{\text {old }}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}\right)^{2}\right]$$


该机制根据对数比率(log-ratio)显式限制偏离策略(off-policy)的漂移,无论优势(advantage)的符号如何,这对于维持长视界工具使用推理的稳定性至关重要。
* 奖励函数:结合了基于规则的结果奖励(用于可验证任务)、预算控制奖励和生成式奖励模型(GRMs)。对于视觉任务,设计了特定的细粒度奖励(如基于 IoU 的定位奖励、OCR 的编辑距离奖励)。GRMs 用于评估有用性、上下文相关性等难以量化的指标。
* Token 高效强化学习(Toggle):为了解决在严格预算约束下模型可能出现的长度过拟合问题(即无法利用额外推理时间 Token),提出了 Toggle 训练启发式算法。该算法在“预算限制阶段”(Phase 0)和“标准扩展阶段”(Phase 1)之间交替优化。

$$\begin{aligned} \tilde{r}(x, y)= \begin{cases}r(x, y) \cdot \mathbb{I}\left\{\frac{1}{K} \sum_{i=1}^K r\left(x, y_i\right)<\lambda \text { or }\left|y_i\right| \leq \text{budget}(x)\right\} & \text { if }\lfloor t / m\rfloor \quad(\bmod 2)=0 \text { (Phase0) } \\ r(x, y) & \text { if }\lfloor t / m\rfloor \quad(\bmod 2)=1 \text { (Phase1) }\end{cases} \end{aligned}$$
其中预算定义为:
$$\text{budget}(x) = \text{Percentile} (\{|y_j| \mid r(x,y_i)=1, i=1,\dots,K\}, \rho) .$$
实验表明(Fig 5),Toggle 在几乎不影响性能的情况下减少了 25~30% 的输出 Token。

图 5:采用 Token 高效 RL 后 Kimi K2 Thinking 的模型性能与 Token 使用量对比。
图 5:采用 Token 高效 RL 后 Kimi K2 Thinking 的模型性能与 Token 使用量对比。

训练基础设施:解耦编码器进程(DEP)
为了解决多模态输入大小变化导致的流水线并行(PP)负载不均衡问题,作者提出了 DEP(Decoupled Encoder Process)。DEP 将每个训练步骤分为三个阶段:
1. 平衡视觉前向(Balanced Vision Forward):视觉编码器被复制到所有 GPU 上,根据负载指标(如图像计数)均匀分布前向计算负载,结果收集回 PP Stage-0。
2. 主干训练(Backbone Training):主 Transformer 主干的前向和后向传递,完全利用文本训练的并行策略。
3. 视觉重计算与后向(Vision Recomputation & Backward):重新计算视觉编码器前向并通过后向传递计算梯度。
这种设计不仅实现了负载均衡,还将视觉编码器的优化策略与主干解耦,使多模态训练效率达到了纯文本训练的 90%。

A3 关键 Observation/设计原则

在方法论的探索中,K2.5 确立了几个关键的观察与原则,这直接指导了模型的设计:

  1. 早期融合优于晚期融合:在多模态预训练中,只要总 Token 预算固定,相比于在后期大量注入视觉数据,早期引入适度比例的视觉数据能产生更好的效果,因为它避免了后期模态迁移带来的表征空间冲击(Figure 9)。
  2. 视觉与文本的双向增强:视觉 RL 不仅提升了视觉任务表现,还出人意料地提升了纯文本任务(如 MMLU-Pro)的性能。这一发现推动了联合多模态 RL 的设计,即按“能力”而非“模态”来划分训练领域。
  3. 主动式上下文管理(Agent Swarm):Agent Swarm 不仅仅是并行执行,更是一种主动的、智能的上下文管理策略。与被动的“Discard-all”或摘要策略不同,Swarm 通过将长任务分解为语义隔离的子任务,利用子智能体的独立工作记忆,实现了“上下文分片(Context Sharding)”而非截断,从而在保留推理完整性的同时扩展了有效上下文长度。

A4 实验环境

  • 硬件配置:NVIDIA H800 GPU 集群,节点间采用 8×400 Gbps RoCE 互连。
  • 模型参数:Kimi K2.5 基于 Kimi K2 MoE Transformer,总参数量 1.04 万亿(1.04T),激活参数量 320 亿(32B),拥有 384 个专家(每个 Token 激活 8 个)。
  • 数据规模:预训练数据包含约 15 万亿(15T)个混合视觉和文本 Token。
  • 软件环境:使用了 MuonClip 优化器(配合 QK-Clip),采用解耦编码器进程(DEP)以及结合了流水线并行(PP)、专家并行(EP)和 ZeRO-1 数据并行的混合并行策略。

A4 实验结果

Kimi K2.5 在广泛的基准测试中进行了评估,并与 Claude Opus 4.5、GPT-5.2 (xhigh) 和 Gemini 3 Pro 等模型进行了对比。

主要结果概览 (Table 4)
* 推理与通用能力
* 在 AIME 2025 数学竞赛中,K2.5 得分 96.1%,接近 GPT-5.2 的满分,优于 Claude Opus 4.5 (92.8%)。
* 在 HMMT 2025 (Feb) 中达到 95.4%
* 在 HLE (Humanity's Last Exam) 中,启用工具后得分为 50.2%,显著优于 Gemini 3 Pro (45.8%) 和 GPT-5.2 (45.5%)。
* 在 MMLU-Pro (87.1%) 和 GPQA-Diamond (87.6%) 上展现了强大的知识推理能力。

  • 编码与软件工程

    • SWE-Bench Verified:得分 76.8%,优于 Gemini 3 Pro,与 Claude Opus 4.5 具有竞争力。
    • LiveCodeBench v6:得分 85.0%,超越了 DeepSeek-V3.2 (83.3%)。
    • CyberGym 网络安全任务中得分为 41.3。
  • 智能体能力

    • BrowseComp:K2.5 在无上下文管理下得分 60.6%,配合 Discard-all 策略可达 74.9%,大幅领先 GPT-5.2 (65.8%)。
    • DeepSearchQA (77.1%) 和 WideSearch (72.7%) 均取得领先成绩。
  • 图像与视频理解

    • MMMU-Pro:得分 78.5%
    • OCR:OCRBench (92.3%) 和 InfoVQA (92.6%) 表现出色。
    • 视频:在 VideoMMMU (86.6%) 和 MMVU (80.4%) 上达到 SOTA 水平。凭借 MoonViT-3D 的压缩能力,在长视频基准 LongVideoBench (79.8%) 和 LVBench (75.9%) 上确立了新纪录。
  • 计算机使用 (Computer Use)

    • OSWorld-Verified:成功率 63.3%,大幅领先 Qwen3-VL 等开源模型,接近 Claude Opus 4.5 (66.3%)。
表 4:Kimi K2.5 与开源及专有模型的性能比较。粗体表示全局 SOTA。
表 4:Kimi K2.5 与开源及专有模型的性能比较。粗体表示全局 SOTA。
表 5:部分推理模型的性能和 Token 效率。括号中显示平均输出 Token 计数(以千为单位)。
表 5:部分推理模型的性能和 Token 效率。括号中显示平均输出 Token 计数(以千为单位)。

Agent Swarm 结果 (Table 6, Fig 8)

  • 性能提升:在 BrowseComp 上,Agent Swarm 达到 78.4%,比单智能体基线提升 17.8%。在 WideSearch 上,Item-F1 提升至 79.0%,超越 Claude Opus 4.5。
  • 效率提升:在 WideSearch 测试中,Agent Swarm 将达到目标性能所需的执行时间减少了 3× 到 4.5×。随着任务复杂度增加(目标 F1 从 30% 升至 70%),单智能体时间呈线性增长,而 Swarm 保持了较低的延迟。
表 6:Kimi K2.5 Agent Swarm 与单智能体及专有基线在智能体搜索基准上的性能比较。粗体表示每个基准的最佳结果。
表 6:Kimi K2.5 Agent Swarm 与单智能体及专有基线在智能体搜索基准上的性能比较。粗体表示每个基准的最佳结果。
图 8:在 WideSearch 测试中,随着目标 Item-F1 从 30% 增加到 70%,Agent Swarm 的执行时间比单智能体基线快 3×–4.5×。
图 8:在 WideSearch 测试中,随着目标 Item-F1 从 30% 增加到 70%,Agent Swarm 的执行时间比单智能体基线快 3×–4.5×。

A5 结论

Kimi K2.5 证明了通过文本与视觉的联合优化以及并行智能体执行,可以实现可扩展且通用的智能体能力(Agentic Intelligence)。模型通过统一语言和视觉的预训练与强化学习,实现了强大的跨模态对齐和推理能力。Agent Swarm 框架通过异构子任务的并发执行,在降低推理延迟的同时提升了复杂任务的表现。基于这些成果,Kimi Team 开源了 Post-trained 检查点,以助力社区在构建可扩展通用智能体系统方面的研究。

A6 附录

预训练细节
* 文本数据:涵盖网页文本、代码、数学和知识四大领域。特别增强了代码智能,增加了仓库级代码(Repository-level code)和 Issue/PR 数据,以支持复杂编码任务。
* 视觉数据:包含 Caption、交错图文、OCR、知识、感知、视频和智能体数据。引入了专门的多模态解题语料库(STEM)和图像-代码对数据(如 HTML/React 渲染截图)。
* 学习曲线分析(Figure 9):对比了不同视觉比例(10:90, 20:80, 50:50)的学习曲线。早期融合(Early Fusion)避免了后期融合中常见的文本能力暂时下降(Dip-and-recover)现象,保持了更稳定的文本性能曲线。

图 9:在固定视觉-文本 Token 预算下,比较不同视觉-文本比例(10:90, 20:80, 50:50)的学习曲线。较低视觉比例的早期融合往往产生更好的结果。
图 9:在固定视觉-文本 Token 预算下,比较不同视觉-文本比例(10:90, 20:80, 50:50)的学习曲线。较低视觉比例的早期融合往往产生更好的结果。

基础设施细节
* 存储与加载:使用 S3 兼容的对象存储,保留视觉数据的原生格式。开发了支持动态混洗、增强和确定性恢复的高效数据加载基础设施。
* 并行策略:采用 16 路流水线并行(PP)、16 路专家并行(EP)和 ZeRO-1 数据并行。应用了选择性重计算和 FP8-E4M3 激活压缩以适应显存限制。

统一智能体强化学习环境
* 架构:开发了标准化的 Gym-like 接口(Figure 10),支持 Toolset、Judge 和 Prompt 增强等可插拔组件。
* 执行:采用 Rollout Manager 编排多达 100,000 个并发任务。支持异步协程,便于实现 PARL 和 Agent-as-Judge。
* 推理引擎协同设计:遵循 Token-in-Token-out 范式,记录 Log probabilities 以修正训练-推理失配(Mismatch correction)。开发了 LLM Gateway 处理黑盒环境。

图 10:我们的智能体 RL 框架概览。
图 10:我们的智能体 RL 框架概览。

定性示例
附录中展示了 Agent Swarm 处理长视频(《黑神话:悟空》24小时通关视频)的案例(Figure 11),以及 K2.5 通过工具调用解决迷宫、饼图分析和找茬等视觉推理任务的能力(Figure 12)。

图 11:Kimi K2.5 使用并行视觉智能体分析《黑神话:悟空》完整通关过程(24 小时连续游戏,32 个视频,1080p)的定性示例。
图 11:Kimi K2.5 使用并行视觉智能体分析《黑神话:悟空》完整通关过程(24 小时连续游戏,32 个视频,1080p)的定性示例。
图 12:Kimi K2.5 通过工具使用解决视觉推理任务的定性示例。
图 12:Kimi K2.5 通过工具使用解决视觉推理任务的定性示例。

A7 补充细节

智能体群动态与可视化
在 Agent Swarm 中,子智能体是动态实例化的(Figure 6)。词云图显示了编排器根据任务需求生成的异构子智能体类型,包括“传记研究员”、“验证专家”、“时间线调查员”等。这种自适应分配策略使得异构智能体组能够有机地涌现。

图 6:词云可视化了编排器在测试中动态实例化的异构 K2.5 子智能体。
图 6:词云可视化了编排器在测试中动态实例化的异构 K2.5 子智能体。

上下文管理对比
在 BrowseComp 测试中对比了 Agent Swarm 与 Discard-all 上下文管理策略(Figure 7)。Agent Swarm 作为一种主动的结构化上下文管理器,通过保留高层协调信号并限制子智能体上下文,以更少的关键步骤实现了更高的准确率,优于被动的截断策略。

图 7:在 BrowseComp 中,Agent Swarm 与 Discard-all 上下文管理下的 Kimi K2.5 性能比较。
图 7:在 BrowseComp 中,Agent Swarm 与 Discard-all 上下文管理下的 Kimi K2.5 性能比较。