KIMI K2.5: VISUAL AGENTIC INTELLIGENCE

Kimi Team

A1 主要贡献

本文介绍了 Kimi K2.5，这是一个旨在推进通用智能体能力（General Agentic Intelligence）的开源多模态模型。K2.5 的核心贡献在于强调文本与视觉的联合优化（Joint Optimization），使两种模态相互增强，以及引入了并行智能体编排框架 Agent Swarm。

主要贡献点如下：
1. 文本与视觉的联合优化：通过一系列技术实现，包括联合文本-视觉预训练（Joint text-vision pre-training）、零视觉监督微调（Zero-vision SFT）以及联合文本-视觉强化学习（Joint text-vision RL）。这种联合优化不仅增强了多模态能力，还通过视觉强化学习反向提升了纯文本任务的表现。
2. Agent Swarm 框架：提出了一种自主的并行智能体编排框架。该框架能够动态地将复杂任务分解为异构的子问题，并由专门的子智能体并发执行。
3. 性能提升：Kimi K2.5 在编码、视觉、推理和智能体任务等多个领域均取得了最先进（SOTA）的结果。Agent Swarm 相比单智能体基线，推理延迟降低了高达 4.5 倍。
4. 开源贡献：为了促进未来的研究和实际应用，团队发布了 Kimi K2.5 的 Post-trained 模型权重。

A2 方法细节

2 文本与视觉的联合优化

原生多模态预训练策略
对于多模态预训练中“在固定的视觉-文本 Token 预算下，何种联合训练策略最优”这一关键问题，K2.5 提出了与传统观点不同的见解。传统观点通常建议在 LLM 训练的后期以高比例（如 50% 或更高）引入视觉 Token。然而，作者的消融实验（如 Table 1 和 Figure 9 所示）表明，视觉比例对最终的多模态性能影响微乎其微。实际上，在固定的总预算下，采用较低视觉比例的早期融合（Early fusion）效果更好。因此，K2.5 采用了原生多模态预训练策略：不采用后期集中的大量视觉训练，而是在整个训练过程中早期集成适度的视觉比例，使模型在长期的模态协同优化中自然发展出平衡的多模态表征。

表 1：不同视觉-文本联合训练策略的性能比较。在固定的总视觉-文本 Token 预算下，采用较低视觉比例的早期融合产生了更好的结果。

零视觉 SFT（Zero-Vision SFT）
预训练的视觉语言模型（VLMs）并不天然具备基于视觉的工具调用能力，且缺乏高质量的多模态思维链（CoT）数据。作者观察到高质量的文本 SFT 数据相对丰富且多样，因此提出了零视觉 SFT 方法。该方法仅使用文本 SFT 数据来激活后训练阶段的视觉智能体能力。具体而言，所有的图像操作都通过 IPython 中的编程操作进行代理，这实际上是对传统视觉工具使用的泛化。这种“零视觉”激活实现了多样化的推理行为（如通过二值化和计数进行对象大小估计），并能泛化到对象定位、计数和 OCR 等视觉任务中。实验表明（Fig 2），零视觉 SFT 足以激活视觉能力并保证跨模态的泛化，而添加人类设计的视觉轨迹反而可能损害泛化性，这得益于联合预训练建立的强视觉-文本对齐。

联合多模态强化学习（Joint Multimodal RL）
在零视觉 SFT 之后，模型需要进一步优化以可靠地将视觉输入纳入推理。作者首先采用了基于结果的视觉 RL（Outcome-Based Visual RL），针对需要视觉理解才能正确解答的任务（如视觉定位计数、图表文档理解、视觉关键的 STEM 问题）进行训练。提取这些轨迹进行拒绝采样微调（RFT），建立了一个自我改进的数据管道。
随后，作者发现视觉 RL 能提升文本性能。评估显示，视觉 RL 不仅增强了视觉能力，还在纯文本基准（如 MMLU-Pro 和 GPQA-Diamond）上带来了显著提升（Table 2）。这表明视觉 RL 增强了结构化信息提取的校准能力，有助于跨模态泛化。
基于此，K2.5 在后训练阶段采用了联合多模态 RL 范式。不同于传统的按输入模态划分专家，K2.5 按能力（知识、推理、编码、智能体等）组织 RL 领域。这些领域专家从纯文本和多模态查询中共同学习，生成式奖励模型（GRM）也跨越模态界限进行优化，从而最大化跨模态能力的迁移。

图 2：从最小的零视觉 SFT 开始，视觉基准测试上的视觉 RL 训练曲线。通过扩展视觉 RL FLOPs，性能持续提高，表明零视觉激活配合长期运行的 RL 足以获得稳健的视觉能力。

3 Agent Swarm（智能体群）

并行智能体编排的设计初衷
现有的智能体系统主要依赖于推理和工具调用的顺序执行，这在面对复杂、长视界（long-horizon）任务时会遇到瓶颈，导致推理深度和工具调用预算耗尽。为了解决这一问题，K2.5 引入了 Agent Swarm 和 并行智能体强化学习（PARL）。K2.5 不再将任务作为单一推理链执行，而是通过动态任务分解、子智能体实例化和并行子任务调度来启动 Agent Swarm。系统并非预设并行化总是更有利，而是通过环境反馈和 RL 驱动的探索来学习何时以及如何进行并行化。

图 3：Agent Swarm 拥有一个可训练的编排器（Orchestrator），它动态创建专门的冻结子智能体，并将复杂任务分解为可并行的子任务，以实现高效的分布式执行。

架构与学习设置
PARL 框架采用解耦架构，包含一个可训练的编排器（Orchestrator）和从固定中间策略检查点实例化的冻结子智能体（Frozen Subagents）。这种设计避免了端到端的联合优化，从而规避了信用分配模糊和训练不稳定性这两个挑战。在这个多智能体设置中，子智能体被冻结，其输出被视为环境观察结果，而非可微分的决策点。为了提高效率，首先使用小规模子智能体训练编排器，然后过渡到较大模型。

PARL 奖励函数
为了训练可靠的并行编排器，PARL 定义了如下奖励函数：

$$r_{\mathrm{PARL}}(x, y)=\lambda_{1} \cdot \underbrace{r_{\text {parallel }}}_{\text {instantiation reward }}+\lambda_{2} \cdot \underbrace{r_{\text {finish }}}_{\text {sub-agent finish rate }}+\underbrace{r_{\text {perf }}(x, y)}_{\text {task-level outcome }}$$

其中 $r_{perf}$ 评估任务的整体成功率。$r_{parallel}$ 是为了减轻“串行坍缩”（即编排器默认为单智能体执行）而引入的奖励，鼓励探索并发调度空间。$r_{finish}$ 奖励关注已分配子任务的成功完成，用于防止“虚假并行”（即编排器生成大量子智能体但无实际意义的任务分解）。超参数 $\lambda_1$ 和 $\lambda_2$ 在训练过程中会逐渐退火至零。

图 4：在我们的并行智能体强化学习环境中，训练准确率随着训练的进行平稳上升。同时，训练期间的并行度也逐渐增加。

关键步骤（Critical Steps）作为资源约束
为了衡量并行智能体设置中的计算时间成本，作者定义了关键步骤，类比于计算图中的关键路径。一个 Episode 被建模为一系列执行阶段 $t=1,...,T$。总关键步骤定义为：

$$ \text{CriticalSteps} = \sum_{t=1}^{T} \left( S_{\text{main}}^{(t)} + \max_{i} S_{\text{sub},i}^{(t)} \right). $$

其中 $S^{(t)}_{main}$ 是主智能体的步数，$S^{(t)}_{sub,i}$ 是第 $i$ 个并行子智能体的步数。该指标受该组中运行时间最长的子智能体控制。通过使用关键步骤而非总步骤来约束训练和评估，框架明确激励有效的并行化，鼓励编排器以最小化端到端延迟的方式分配工作。

并行能力诱导的提示构建
为了激励编排器利用并行化优势，作者构建了一套合成提示（Synthetic Prompts），旨在对顺序执行施加压力。这些提示强调广度搜索（需同时探索多个独立信息源）或深度搜索（需多个推理分支且延迟聚合），以及模拟现实工作负载（如长文档分析）。这些任务在顺序执行时难以在固定预算内完成，从而自然地促使编排器采用并行分解策略。

4 方法概览

基础模型与架构
Kimi K2.5 建立在 Kimi K2（万亿参数 MoE 模型）之上。其多模态架构包括三个部分：MoonViT-3D（原生分辨率视觉编码器）、MLP 投影层和 Kimi K2 MoE 语言模型。
* MoonViT-3D：为了最大化图像理解能力向视频的迁移，引入了 MoonViT-3D。它采用了统一架构和共享参数空间，通过将 NaViT 的“Patch n' Pack”策略推广到时间维度，将多达 4 帧连续帧视为一个时空体（Spatiotemporal Volume）。这使得相同的注意力机制可以无缝处理空间和时间。
* 视频压缩：在 MLP 投影之前，引入了轻量级的时间池化，将每个时间块内的 Patch 进行聚合，实现了 4 倍的时间压缩，从而显著扩展了可处理的视频长度。

预训练流程
预训练分为三个阶段（如 Table 3 所示）：
1. ViT 训练阶段：MoonViT-3D 从 SigLIP 继续预训练，使用图像/视频-文本对。采用两阶段对齐策略：首先通过 caption loss 将 MoonViT-3D 与 Moonlight-16B-A3B 对齐，然后仅更新 MLP 投影层以桥接 ViT 与 1T LLM。
2. 联合训练阶段：在 K2 检查点的基础上，对额外的 15T 视觉-文本 Token 进行联合预训练。数据配方增加了代码相关内容的权重。
3. 长上下文中间训练（Mid-training）：使用高质量数据和 YaRN 插值顺序扩展上下文长度，激活长上下文理解能力。

后训练：强化学习
RL 阶段通过统一智能体强化学习环境（Unified Agentic RL Environment）进行。
* 策略优化：使用了带有 Token 级裁剪机制的优化目标：

$$L_{\mathrm{RL}}(\theta)=\mathbb{E}_{x \sim \mathscr{D}}\left[\frac{1}{N} \sum_{j=1}^{K} \sum_{i=1}^{\left|y_{j}\right|} \operatorname{Clip}\left(\frac{\pi_{\theta}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}{\pi_{\text {old }}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}, \alpha, \beta\right)\left(r\left(x, y_{j}\right)-\bar{r}(x)\right)-\tau\left(\log \frac{\pi_{\theta}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}{\pi_{\text {old }}\left(y_{j}^{i} \mid x, y_{j}^{0: i}\right)}\right)^{2}\right]$$

该机制根据对数比率（log-ratio）显式限制偏离策略（off-policy）的漂移，无论优势（advantage）的符号如何，这对于维持长视界工具使用推理的稳定性至关重要。
* 奖励函数：结合了基于规则的结果奖励（用于可验证任务）、预算控制奖励和生成式奖励模型（GRMs）。对于视觉任务，设计了特定的细粒度奖励（如基于 IoU 的定位奖励、OCR 的编辑距离奖励）。GRMs 用于评估有用性、上下文相关性等难以量化的指标。
* Token 高效强化学习（Toggle）：为了解决在严格预算约束下模型可能出现的长度过拟合问题（即无法利用额外推理时间 Token），提出了 Toggle 训练启发式算法。该算法在“预算限制阶段”（Phase 0）和“标准扩展阶段”（Phase 1）之间交替优化。

$$\begin{aligned} \tilde{r}(x, y)= \begin{cases}r(x, y) \cdot \mathbb{I}\left\{\frac{1}{K} \sum_{i=1}^K r\left(x, y_i\right)<\lambda \text { or }\left|y_i\right| \leq \text{budget}(x)\right\} & \text { if }\lfloor t / m\rfloor \quad(\bmod 2)=0 \text { (Phase0) } \\ r(x, y) & \text { if }\lfloor t / m\rfloor \quad(\bmod 2)=1 \text { (Phase1) }\end{cases} \end{aligned}$$

其中预算定义为：

$$\text{budget}(x) = \text{Percentile} (\{|y_j| \mid r(x,y_i)=1, i=1,\dots,K\}, \rho) .$$

实验表明（Fig 5），Toggle 在几乎不影响性能的情况下减少了 25~30% 的输出 Token。

图 5：采用 Token 高效 RL 后 Kimi K2 Thinking 的模型性能与 Token 使用量对比。

训练基础设施：解耦编码器进程（DEP）
为了解决多模态输入大小变化导致的流水线并行（PP）负载不均衡问题，作者提出了 DEP（Decoupled Encoder Process）。DEP 将每个训练步骤分为三个阶段：
1. 平衡视觉前向（Balanced Vision Forward）：视觉编码器被复制到所有 GPU 上，根据负载指标（如图像计数）均匀分布前向计算负载，结果收集回 PP Stage-0。
2. 主干训练（Backbone Training）：主 Transformer 主干的前向和后向传递，完全利用文本训练的并行策略。
3. 视觉重计算与后向（Vision Recomputation & Backward）：重新计算视觉编码器前向并通过后向传递计算梯度。
这种设计不仅实现了负载均衡，还将视觉编码器的优化策略与主干解耦，使多模态训练效率达到了纯文本训练的 90%。

A3 关键 Observation/设计原则

在方法论的探索中，K2.5 确立了几个关键的观察与原则，这直接指导了模型的设计：

早期融合优于晚期融合：在多模态预训练中，只要总 Token 预算固定，相比于在后期大量注入视觉数据，早期引入适度比例的视觉数据能产生更好的效果，因为它避免了后期模态迁移带来的表征空间冲击（Figure 9）。
视觉与文本的双向增强：视觉 RL 不仅提升了视觉任务表现，还出人意料地提升了纯文本任务（如 MMLU-Pro）的性能。这一发现推动了联合多模态 RL 的设计，即按“能力”而非“模态”来划分训练领域。
主动式上下文管理（Agent Swarm）：Agent Swarm 不仅仅是并行执行，更是一种主动的、智能的上下文管理策略。与被动的“Discard-all”或摘要策略不同，Swarm 通过将长任务分解为语义隔离的子任务，利用子智能体的独立工作记忆，实现了“上下文分片（Context Sharding）”而非截断，从而在保留推理完整性的同时扩展了有效上下文长度。

A4 实验环境

硬件配置：NVIDIA H800 GPU 集群，节点间采用 8×400 Gbps RoCE 互连。
模型参数：Kimi K2.5 基于 Kimi K2 MoE Transformer，总参数量 1.04 万亿（1.04T），激活参数量 320 亿（32B），拥有 384 个专家（每个 Token 激活 8 个）。
数据规模：预训练数据包含约 15 万亿（15T）个混合视觉和文本 Token。
软件环境：使用了 MuonClip 优化器（配合 QK-Clip），采用解耦编码器进程（DEP）以及结合了流水线并行（PP）、专家并行（EP）和 ZeRO-1 数据并行的混合并行策略。

A4 实验结果

Kimi K2.5 在广泛的基准测试中进行了评估，并与 Claude Opus 4.5、GPT-5.2 (xhigh) 和 Gemini 3 Pro 等模型进行了对比。

主要结果概览 (Table 4)
* 推理与通用能力：
* 在 AIME 2025 数学竞赛中，K2.5 得分 96.1%，接近 GPT-5.2 的满分，优于 Claude Opus 4.5 (92.8%)。
* 在 HMMT 2025 (Feb) 中达到 95.4%。
* 在 HLE (Humanity's Last Exam) 中，启用工具后得分为 50.2%，显著优于 Gemini 3 Pro (45.8%) 和 GPT-5.2 (45.5%)。
* 在 MMLU-Pro (87.1%) 和 GPQA-Diamond (87.6%) 上展现了强大的知识推理能力。

编码与软件工程：
- SWE-Bench Verified：得分 76.8%，优于 Gemini 3 Pro，与 Claude Opus 4.5 具有竞争力。
- LiveCodeBench v6：得分 85.0%，超越了 DeepSeek-V3.2 (83.3%)。
- 在 CyberGym 网络安全任务中得分为 41.3。
智能体能力：
- BrowseComp：K2.5 在无上下文管理下得分 60.6%，配合 Discard-all 策略可达 74.9%，大幅领先 GPT-5.2 (65.8%)。
- DeepSearchQA (77.1%) 和 WideSearch (72.7%) 均取得领先成绩。
图像与视频理解：
- MMMU-Pro：得分 78.5%。
- OCR：OCRBench (92.3%) 和 InfoVQA (92.6%) 表现出色。
- 视频：在 VideoMMMU (86.6%) 和 MMVU (80.4%) 上达到 SOTA 水平。凭借 MoonViT-3D 的压缩能力，在长视频基准 LongVideoBench (79.8%) 和 LVBench (75.9%) 上确立了新纪录。
计算机使用 (Computer Use)：
- OSWorld-Verified：成功率 63.3%，大幅领先 Qwen3-VL 等开源模型，接近 Claude Opus 4.5 (66.3%)。

表 4：Kimi K2.5 与开源及专有模型的性能比较。粗体表示全局 SOTA。

表 5：部分推理模型的性能和 Token 效率。括号中显示平均输出 Token 计数（以千为单位）。

Agent Swarm 结果 (Table 6, Fig 8)

性能提升：在 BrowseComp 上，Agent Swarm 达到 78.4%，比单智能体基线提升 17.8%。在 WideSearch 上，Item-F1 提升至 79.0%，超越 Claude Opus 4.5。
效率提升：在 WideSearch 测试中，Agent Swarm 将达到目标性能所需的执行时间减少了 3× 到 4.5×。随着任务复杂度增加（目标 F1 从 30% 升至 70%），单智能体时间呈线性增长，而 Swarm 保持了较低的延迟。

表 6：Kimi K2.5 Agent Swarm 与单智能体及专有基线在智能体搜索基准上的性能比较。粗体表示每个基准的最佳结果。

图 8：在 WideSearch 测试中，随着目标 Item-F1 从 30% 增加到 70%，Agent Swarm 的执行时间比单智能体基线快 3×–4.5×。

A5 结论

Kimi K2.5 证明了通过文本与视觉的联合优化以及并行智能体执行，可以实现可扩展且通用的智能体能力（Agentic Intelligence）。模型通过统一语言和视觉的预训练与强化学习，实现了强大的跨模态对齐和推理能力。Agent Swarm 框架通过异构子任务的并发执行，在降低推理延迟的同时提升了复杂任务的表现。基于这些成果，Kimi Team 开源了 Post-trained 检查点，以助力社区在构建可扩展通用智能体系统方面的研究。

A6 附录

预训练细节
* 文本数据：涵盖网页文本、代码、数学和知识四大领域。特别增强了代码智能，增加了仓库级代码（Repository-level code）和 Issue/PR 数据，以支持复杂编码任务。
* 视觉数据：包含 Caption、交错图文、OCR、知识、感知、视频和智能体数据。引入了专门的多模态解题语料库（STEM）和图像-代码对数据（如 HTML/React 渲染截图）。
* 学习曲线分析（Figure 9）：对比了不同视觉比例（10:90, 20:80, 50:50）的学习曲线。早期融合（Early Fusion）避免了后期融合中常见的文本能力暂时下降（Dip-and-recover）现象，保持了更稳定的文本性能曲线。

图 9：在固定视觉-文本 Token 预算下，比较不同视觉-文本比例（10:90, 20:80, 50:50）的学习曲线。较低视觉比例的早期融合往往产生更好的结果。

基础设施细节
* 存储与加载：使用 S3 兼容的对象存储，保留视觉数据的原生格式。开发了支持动态混洗、增强和确定性恢复的高效数据加载基础设施。
* 并行策略：采用 16 路流水线并行（PP）、16 路专家并行（EP）和 ZeRO-1 数据并行。应用了选择性重计算和 FP8-E4M3 激活压缩以适应显存限制。

统一智能体强化学习环境
* 架构：开发了标准化的 Gym-like 接口（Figure 10），支持 Toolset、Judge 和 Prompt 增强等可插拔组件。
* 执行：采用 Rollout Manager 编排多达 100,000 个并发任务。支持异步协程，便于实现 PARL 和 Agent-as-Judge。
* 推理引擎协同设计：遵循 Token-in-Token-out 范式，记录 Log probabilities 以修正训练-推理失配（Mismatch correction）。开发了 LLM Gateway 处理黑盒环境。

定性示例
附录中展示了 Agent Swarm 处理长视频（《黑神话：悟空》24小时通关视频）的案例（Figure 11），以及 K2.5 通过工具调用解决迷宫、饼图分析和找茬等视觉推理任务的能力（Figure 12）。

图 11：Kimi K2.5 使用并行视觉智能体分析《黑神话：悟空》完整通关过程（24 小时连续游戏，32 个视频，1080p）的定性示例。

A7 补充细节

智能体群动态与可视化
在 Agent Swarm 中，子智能体是动态实例化的（Figure 6）。词云图显示了编排器根据任务需求生成的异构子智能体类型，包括“传记研究员”、“验证专家”、“时间线调查员”等。这种自适应分配策略使得异构智能体组能够有机地涌现。

上下文管理对比
在 BrowseComp 测试中对比了 Agent Swarm 与 Discard-all 上下文管理策略（Figure 7）。Agent Swarm 作为一种主动的结构化上下文管理器，通过保留高层协调信号并限制子智能体上下文，以更少的关键步骤实现了更高的准确率，优于被动的截断策略。

图 7：在 BrowseComp 中，Agent Swarm 与 Discard-all 上下文管理下的 Kimi K2.5 性能比较。

PaperCache

KIMI K2.5: VISUAL AGENTIC INTELLIGENCE

KIMI K2.5: VISUAL AGENTIC INTELLIGENCE

A1 主要贡献

A2 方法细节

2 文本与视觉的联合优化

3 Agent Swarm（智能体群）

4 方法概览

A3 关键 Observation/设计原则

A4 实验环境

A4 实验结果

A5 结论

A6 附录

A7 补充细节

💬 评论讨论

KIMI K2.5: VISUAL AGENTIC INTELLIGENCE

A1 主要贡献

A2 方法细节

2 文本与视觉的联合优化

3 Agent Swarm（智能体群）

4 方法概览

A3 关键 Observation/设计原则

A4 实验环境

A4 实验结果

A5 结论

A6 附录

A7 补充细节

💬 评论讨论

登录

注册

忘记密码

重发验证邮件