Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity
Seed2.0 Model Card: Towards Intelligence Frontier for Real-World Complexity
Bytedance Seed
A1 主要贡献
本文介绍了 Seed2.0 系列模型(Pro / Lite / Mini),旨在解决大语言模型(LLM)从解决竞赛级问题向处理现实世界复杂性(Real-World Complexity)转变的挑战。Seed 团队不仅发布了通用的 LLM,还开发了包括多模态模型、代码专用模型、数学证明模型等在内的全面模型家族。Seed2.0 的核心设计目标是在大规模生产环境中提供最佳的用户体验,具体贡献如下:
- 强大的视觉和多模态理解:针对大量涉及截图、图表、扫描文档和混合媒体的用户查询,Seed2.0 增强了视觉推理能力,减少了幻觉 [20, 35, 117],并改进了从文档和图表中进行结构化信息提取的能力 [65, 100]。
- 快速且灵活的推理:为了平衡性能与速度,Seed2.0 提供了三种模型尺寸(Pro / Lite / Mini),允许开发者根据具体用例选择合适的模型。
- 可靠的复杂指令执行:针对生产环境中常见的复杂、多步骤指令,Seed2.0 将结构化推理和约束满足作为首要要求,以应对如 DeR2 [115] 和 CL-bench [26] 等基准测试所反映的需求。
- 应对现实世界的复杂性与长尾知识:Seed2.0 致力于解决现有 Agent 系统在长周期、多阶段任务中构建有效工作流的短板,并通过系统地摄入长尾领域知识 [40, 132] 来解决专业领域的知识不对称问题。
- 全面的评估框架:建立了一个包含科学发现(Science Discovery)、Vibe Coding、上下文学习(Context Learning)和现实世界任务(Real-World Tasks)四个维度的评估框架,以指导模型的迭代开发。
Figure 1 MaaS usage distribution in mainland China. Left: Industry traffic distribution showing strong dominance of the Internet sector. Right: Business Customer Usage Scenario Distribution. These statistics is named “Doubao Collaboration Incentive Program” , which sourced from the authorization of customers who have signed the Data Authorization Agreement.
A3 背景知识/关键 Observation/设计原则
MaaS 在中国大陆的使用模式
中国大陆的 MaaS(Model-as-a-Service)使用模式高度集中在面向企业的数字产业和认知密集型应用中。在行业层面,互联网行业占据绝对主导地位,其次是消费电子、金融、新零售和商业服务。传统垂直行业如制造业、汽车和通信的使用量不到总量的 1%。主要行业具有高信息密度、快速产品迭代周期以及模型与生产系统紧密集成的特征。在场景层面,非结构化信息处理和分析占据最大份额,其次是教育、内容创作以及搜索和推荐。Seed 模型被定位为面向工作流的 MaaS 基础,而非轻量级对话模型,强调多模态理解、长上下文推理和工具增强的执行能力。
Agentic Coding 中的查询分布
通过分析开发者轨迹级的使用数据,发现前端开发占据主导地位(Fig 2)。页面布局、样式和 UI 逻辑管理的查询远超后端或全栈任务。这反映了前端工作的迭代性质(视觉反馈循环鼓励频繁交互)以及 AI 辅助前端任务的相对可及性。Vue.js 的采用率远超 React,反映了中国大陆的开发者生态。在任务类型上,Bug 修复占据首位,其次是重构和文档工作,表明开发者主要寻求 AI 协助进行被动维护而非全新开发。这启示模型开发应优先考虑 JavaScript/TypeScript 理解、CSS 布局推理以及调试能力(追踪错误信息、理解堆栈跟踪)。
成本效益设计原则
Seed2.0 的一个关键优势在于其成本结构。如 Table 1 所示,Seed2.0 在提供与前沿模型相当的用户体验的同时,其 Token 定价大约低了一个数量级。这种成本差异对于企业级 MaaS 部署至关重要,使得大规模非结构化信息处理和内容生成等高容量、工作流集成的用例在经济上变得可行。Seed2.0 Mini 的解码价格低于每百万 Token 0.50 USD,为高吞吐量、延迟敏感的应用提供了可能。
A2 方法细节
基础语言能力评估框架
为了衡量基础能力,Seed2.0 在包括 AIME 2025、GPQA Diamond [76]、LiveCodeBench [44] 等一系列基准上进行了评估。除了标准基准,本文特别强调了长尾专业知识(Long-tail Professional Knowledge)的评估。受 SuperGPQA [28] 启发,设计了 LPFQA [132] 和 Encyclo-K [48] 两个新基准。LPFQA 基于专业论坛和专家社区的长尾问题构建,涵盖编程、金融、工程等领域,用于衡量检索和综合长尾专业知识的可靠性。Encyclo-K 则从书籍中提取原子知识陈述并动态组合成评估实例,支持零样本和少样本上下文学习(ICL)评估,以测试模型是否真正掌握了长篇来源中的结构化知识。此外,还构建了 HLE-Verified,这是 Humanity’s Last Exam 的经过专家审查的子集,剔除了模糊或不可验证的问题。
基础视觉能力评估框架
Seed2.0 的图像理解能力通过 50 个公共图像基准和 24 个公共视频基准进行评估。图像基准涵盖九大类:
* MultiModal Math:评估视觉上下文中的数学推理,使用 MathVista [52]、DynaMath [133] 等。其中 DynaMath 报告最坏情况准确率(需答对所有 10 个变体)。
* MultiModal STEM:评估科学和工程领域的专业知识,使用 MMMU [117]、PhyX [80] 等。
* Visual Puzzles:通过 LogicVista [106] 和 ArcAGI (Image) [72] 等测试抽象推理和模式识别。
* Perception & Cognition:使用 VLMsAreBiased [90] 等评估幻觉最小化和偏差缓解。
* General VQA:通过 SimpleVQA [20]、VibeEval [66] 等评估处理开放式查询的能力。MTVQA [83] 使用 LLM-judge 进行评估。
* Pointing & Counting:使用 CountBench [67] 等测试细粒度视觉定位和计数。
* 2D & 3D Spatial Understanding:使用 BLINK [33]、MMSIBench [112] 等评估几何关系和深度理解。
* Document & Chart Understanding:涵盖 ChartQAPro [58]、OmniDocBench [65] 等,测试密集文本提取和复杂图表解读。
* LongContext Understanding:使用 DUDE [89]、MMLongBench [98] 等测试多页文档或长视频的处理能力。
视频理解评估涵盖六个维度:视频知识(VideoMMMU [39])、视频推理(VideoReasonBench [51], Morse-500 [9])、动作与感知(TVBench [21])、长视频理解(VideoMME [30])、多视频理解(CrossVid [46])和流媒体视频理解(OVBench [43])。对于 Morse-500 和动作感知基准,分别提高了输入帧率以适应推理需求。
基础 Agent 能力评估框架
为了评估模型规划、调用工具和完成多步骤任务的能力,本文对测试脚本进行了系统重构以优化执行稳定性和可复现性,包括消除冗余环境配置、修复参考脚本环境和使用内部镜像替换外部包存储库。评估排除了具有不确定性行为或网络依赖的低质量测试用例。评估维度包括:
* Coding Agents:涵盖存储库级软件工程,如 Terminal-Bench [59]、SWE-Bench [45]、NL2Repo-Bench [25]。
* Search Agents:如 BrowseComp [101]、WideSearch [102]。
* Tool Use:如 $\tau^2$-Bench [5]、BFCL-v4 [68]。
* GUI Agents:如 Minedojo-Verified [29]。
* Deep Research:如 DeepResearch [27]、ResearchRubrics [79]。
高级经济与科学价值任务评估
为了反映 Agent 时代的范式转变,评估框架包含四个高级维度:
1. Scientific Discovery:引入 Ainstain Bench [27] 评估科学编码能力,以及 BABE [129] 评估生物领域的跨模态科学推理。
2. Vibe Coding:构建 NL2Repo-Bench,衡量模型是否能根据自然语言规范在单次端到端过程中完成整个软件存储库的构建,关注跨文件一致性和依赖管理。
3. Economically Valuable Fields:开发了内部基准测试,涵盖 教育(K-12 问题解决)、文本分类(意图识别、情感分析)和 信息提取(从合同、会议记录等异构文档中提取结构化元素)。
4. Context Learning & Real-World Tasks:引入 DeR2 [115] 评估从嘈杂的长篇技术文档中提取信息的能力。构建 Customer Support Q&A 和 Complex Workflow 场景以反映企业工作负载。此外,使用 WorldTravel [97] 评估现实场景中的多步骤计划生成能力。
A4 实验环境
- 模型标识:Seed2.0 Pro (Doubao-Seed-2.0-pro), Seed2.0 Lite, Seed2.0 Mini。
- 访问方式:火山引擎 (Volcano Engine)。
- 对比模型:GPT-5.2 High, Claude-Sonnet-4.5, Claude-Opus-4.5, Gemini-3-Pro High, Gemini-3-Flash High, Deepseek-Prover-V2。
- 评估平台:涉及多种公开基准测试(如 AIME, SWE-bench, MMMU 等)及 Seed 团队自研的内部基准测试(如 LPFQA, Encyclo-K, Ainstain Bench)。
- 特定配置:
- 视频基准测试中,Morse-500 输入帧率设为 5 FPS,动作感知基准设为 2 FPS。
- Agent 评估中,对测试环境进行了重构,使用预构建镜像和内部镜像源以确保稳定性。
- Graphwalks 评估使用了内部 tokenization 流程。
A4 实验结果
- 基础语言能力 (Table 3, 4, 6, 7):
- 数学与代码:Seed2.0 Pro 在 AIME 2025/2026 和 HMMT 上表现出极具竞争力的性能,IMOAnswerBench 得分 89.3。在 Codeforces 上达到 Elo 3020,优于 Gemini-3-Pro High (2726)。
- 长尾知识:在 SuperGPQA 和 Encyclo-K 上与 GPT-5.2 和 Gemini-3-Pro 持平。
- 复杂指令遵循:在内部中文基准测试中,Seed2.0 Pro 得分 75.26%,较 Seed1.8 提升 2.37%,在语气控制 (+15.16%) 和短语依从性 (+10.31%) 方面提升显著。
- 轻量级模型:Seed2.0 Lite 在保持高效的同时,在数学和推理方面表现强劲。
Table 3 Evaluation on Fundamental Language Capacity Benchmarks (Large Models). The highest score is marked in bold, and the second is underlined.
- 视觉任务 (Table 8):
- Seed2.0 Pro 在大多数基准测试中取得 SOTA。
- 数学与 STEM:MathVision (88.8), MathKangaroo (90.5), PhyX (72.1) 均领先。
- 感知与空间:在 VLMsAreBlind (98.6) 和 DA-2K (92.3) 上表现优异。
- 文档理解:在长上下文文档基准 DUDE (72.4) 和 MMLongBench (74.8) 上占据主导地位。
Table 8 Performance of Seed2.0 on public visual-language benchmarks compared to previous models. We report Pass@1 in these benchmarks. The best score for each benchmark is marked in bold, and the second best is underlined. Results marked with an ∗ are sourced from the technical report.
- 视频任务 (Table 9, 10):
- Seed2.0 Pro 在 VideoReasonBench (77.8) 和 Morse-500 (37.4) 上大幅领先,展现了强大的视频推理能力。
- 长视频:VideoMME 得分 89.5。
- 工具使用:启用 VideoCut 工具后,在 ZeroVideo 上的得分从 14.5 提升至 27.9 (Table 10)。
Table 9 Performance of Seed2.0 on public video understanding benchmarks compared to previous models. The highest score in each benchmark is marked in bold, and the second is underlined. For benchmarks marked with a ‡, we include subtitles for evaluation. Results marked with an ∗ are sourced from the technical report.
- Agent 能力 (Table 11, 12):
- Seed2.0 Pro 在 Search (BrowseComp-zh 82.4), Deep Research (DeepConsult 61.1), Vision Agent (Minedojo-Verified 49.0) 任务上处于第一梯队。
- Coding Agent:在 SpreadsheetBench Verified 上得分 79.1,位居榜首。
Table 11 Evaluation on Fundamental Agentic Capacity Benchmarks (Large Models). The highest score is marked in bold, and the second is underlined. Some scores differ greatly from the evaluation results in the tech reports by other organizations. The scores in parentheses represent the results under the aligned settings then.
- 高级任务 (Table 13, 14):
- 科学发现:在 AInstein Bench 上得分 47.7,领先于 Gemini-3-pro High (42.8)。
- 现实世界价值:在 XPert Bench (64.5) 和 ToB-Info Extraction (52.0) 上表现出色。
- 不足:在 NL2Repo-Bench 上得分 27.9,落后于 GPT-5.2 High (49.3),表明长周期代码库构建仍有提升空间。
A7 补充细节
Vibe Coding 案例研究
- 复杂代码生成 (Section 5.1.1):在 TerminalBench 2.0 的 FEAL 线性密码分析任务中,Seed2.0 通过 12 轮交互完成了任务。它没有采用暴力的穷举搜索($2^{80}$ 空间),而是通过分析
feal.c实施了中间相遇攻击(Meet-in-the-Middle Strategy)。它预计算了expand()操作的逆映射表,并利用代数逆变换推导了 F 函数的逆,从而将复杂度降低到 $O(2^{21})$。模型在attack.py中实现了这一策略,并通过多层验证(检查 32 个明密文对)确保了密钥的正确性 (Fig 3)。 - 项目仓库构建 (Section 5.1.2):在 NL2Repo 任务中,Seed2.0 仅依据需求文档从零构建了一个 Python 配置管理库。它遵循了规范分析、实现与配置、测试与调试三个阶段。模型编写了
decouple.py,处理了 Python 3.12 兼容性问题(将read_config替换为read_file),并创建了包含 22 个测试用例的pytest套件。通过迭代修复(如解决空字符串布尔转换问题),最终实现了 100% 的测试通过率 (Fig 4)。 - 迭代代码调试 (Section 5.1.3):在 SWE-bench Pro 的 Qt 日志重构任务中,Seed2.0 展示了零回归(Zero-regression)调试能力。任务要求将
hide_qt_warning从log.py移至qtlog.py。模型不仅移动了代码和测试,还通过在原位置保留导入层(import layer)来维持向后兼容性。验证过程包括边界扫描、迁移、单元测试和集成验证,最终确保了行为的严格等效性 (Fig 5)。 - 竞赛级编程 (Section 5.1.5):在 2025 年下半年的 5 场 ICPC 官方比赛中,Seed2.0 Pro 均达到了金牌水平,Pass@8 得分为 73.02%,显著优于 GPT-5.2 和 Gemini-3-Pro (Fig 7)。
现实世界应用操作
* FreeCAD 操作 (Section 5.2.1):Seed2.0 在参数化实体建模任务中展示了语义 GUI 理解能力。面对工具选择错误或对话框无响应等 UI 噪音,模型通过自我反思机制(Self-Reflection)进行纠正,例如重新定位菜单中的工具或确认点击。它通过 Python 控制台(obj.Shape.Volume)进行数值验证,而非仅仅依赖视觉检查,确保了工程级的精确性 (Fig 8)。
* CapCut 操作 (Section 5.2.2):在视频编辑任务中,Seed2.0 能够处理具有时间依赖性的多步操作(分割、转场、特效)。面对 UI 状态不一致(如双击失败),系统会重新锚定工作流,例如将播放头重置到 00:00:00:00 以防止误差传播。模型展示了在部分失败下的自适应控制能力 (Fig 9)。
多学科科学研究
* 量子计算代码 (Section 5.3.1):在 AInstein Bench 中,Seed2.0 修复了 Qiskit Solovay-Kitaev 编译器中的一个细微 Bug。该 Bug 源于 SU(2)(双覆盖)到 SO(3) 映射时的全局相位丢失。Seed2.0 并没有简单地进行数值修补,而是从群论角度识别了根因,并在后处理阶段通过计算相位 $\phi$使得 $e^{i\phi}U_{decomp} = U_{target}$ 来恢复相位信息,展示了领域理论与软件工程的结合 (Fig 12)。
* 广义相对论代码:Seed2.0 在 Einstein Toolkit (Cactus 框架) 中实现了计算黑洞视界间固有时(Proper Distance)的功能。它正确地区分了坐标距离与弯曲时空中的测地线距离,实现了度规张量 $g_{ij}$ 的积分 $s = \int \sqrt{g_{ij} dx^i dx^j}$,并处理了 Fortran/C++ 混合代码库中的依赖关系 (Fig 13)。
* 计算化学代码:Seed2.0 修复了 PySCF 在复数密度矩阵下的密度拟合(Density Fitting)J/K 矩阵构建错误。通过诊断,模型发现底层 C 例程仅支持实数数组。修复方案利用线性性原理 $K(D_{re} + iD_{im}) = K(D_{re}) + iK(D_{im})$,将复数矩阵分解处理,成功将误差从 0.9 Hartree 降低到数值精度级别。
* 科学分析 (Section 5.4):
* 生物分子模拟:设计了使用 GROMACS 研究 CBD 与 $\alpha 7$ nAChR 受体结合的粗粒度分子动力学(CG-MD)方案。方案包括 PDB 结构选择、Martini 力场参数化、周期性边界条件处理以及基于 RMSD 和氢键的分析策略 (Fig 16)。
* 高分子合成分析:分析了通过 ROMP 和氧化两步法合成马来酰亚胺聚乙炔(mPA)的路线。模型正确解释了前体聚合物的 $sp^3$ 杂化带来的加工性优势,以及氧化后形成共轭平面结构对导电性和 LUMO 能级(n 型半导体特性)的影响 (Fig 17)。
* 实验设计:设计了基于 Cre-LoxP 系统的转基因小鼠模型,用于研究特定脑区细胞类型特异性的高尔基体蛋白失调。方案详细说明了 CRISPR/Cas9 靶向、高尔基体免疫沉淀(Golgi-IP)及多组学(蛋白质组、脂质组、代谢组)分析流程 (Fig 18)。
自动化的模型对模型行为诊断 (Section 5.5)
构建了一个自动化诊断管道,利用 LLM 分析同行模型在异构基准上的评估结果。该系统聚合了指标得分和行为统计数据(Token 使用、格式合规性等),能够有效暴露模型的具体弱点,如代码切换问题或重复的思维链(CoT)模式 (Table 15)。
A6 附录
FreeCAD 参数化建模案例研究 (Appendix A)
- 任务:创建包含圆柱底座和矩形凸台的参数化实体,并验证体积和表面积。
- 流程:共 96 个步骤。包括启动软件、设置中文环境、绘制草图(XY 平面)、施加几何约束(直径 80mm)、拉伸(Pad)、面选择、二次特征创建。
- 关键策略:
- 自适应错误恢复:当工具栏图标点击失败时,切换到菜单导航。
- 鲁棒的选择策略:当直接点击几何体不可靠时,使用元素面板(Elements panel)进行选择。
- 脚本化验证:使用 Python API (
obj.Shape.Volume) 获取 6 位小数的高精度结果,而非依赖 GUI 显示。
FEAL 线性攻击案例研究 (Appendix B)
- 算法分析:识别出 4 轮 Feistel 网络结构,每轮密钥仅 20 位。
- 攻击设计:采用中间相遇(Meet-in-the-Middle)策略。正向迭代 $k_0$,反向迭代 $k_3$,在中间状态匹配。
- 实现细节:推导 F 函数的逆 $F^{-1}$。构建 $k_0$ 的差分表(Delta Map)以加速查找。利用已知明文对 $(P_0, P_1)$ 构建表,用 $(P_2, P_3)$ 验证候选密钥。
- 结果:将复杂度从 $O(2^{80})$ 降低至 $O(2^{21})$,在 22.6 秒内恢复所有子密钥并解密了 100 个密文。
NL2Repo 与 SWE-bench Pro 实现细节 (Appendix C & D)
* NL2Repo:从 39KB 的自然语言规范中提取需求,实现了 python-decouple 库。关键在于处理 Python 3.12 的 ConfigParser API 变更,并确保布尔转换逻辑处理空字符串的边界情况。
* SWE-bench Pro:在 qutebrowser 重构中,通过 from qutebrowser.utils.qtlog import ... 的重新导出模式(Re-export pattern)维持了 API 兼容性,并通过 grep 分析确保所有依赖模块均未受损。
高级数学推理评估细节 (Appendix E)
* 自然语言证明:采用 solve-verify-refine 框架。Seed2.0 Pro 在 IMO 2025 和 CMO 2025 中均达到金牌水平。
* 形式化定理证明:在 Putnam-200 基准上,Seed2.0 Pro 达到 35.5% Pass@8,优于 Gemini-3-Pro (26.5%)。
* Erdős 问题案例:
* Erdős 652:关于平面点集的不同距离。模型构建了点与圆的关联图,利用 Crossing Number Inequality($cr(G) \ge \frac{m^3}{64n^2}$)推导出矛盾,证明了 $\alpha_k \to \infty$。
* Erdős 1051:关于无限级数 $\sum \frac{1}{a_n a_{n+1}}$ 的无理性。模型通过假设 $S = P/Q$ 为有理数,利用递推关系 $r_n - r_m \le \sum \frac{C}{2^k}$ 证明收敛性,并最终导出 $x_m \to 0$ 与 $x_m \ge 1/Q$ 的矛盾。证明过程涉及复杂的数论不等式放缩。
A5 结论
Seed2.0 系列模型在解决复杂现实世界任务的智能化进程中迈出了关键一步。Seed 团队通过识别用户真实需求,构建了可靠且前瞻性的评估体系。基于此,Seed2.0 重点解决了长尾知识和复杂指令遵循问题,增强了模型在长周期任务中的可靠性。凭借世界领先的推理、视觉理解和搜索能力,Seed2.0 已具备处理初步复杂现实世界任务的能力,能为数亿用户带来更大价值。
💬 评论讨论
欢迎在这里分享您的想法和见解!