附录 A · 评测结果

附录 · A

评测结果 — Benchmark 跑分与真实任务胜率

把 V4 与闭源旗舰 / 前代模型放进同一坐标系：知识 / 推理 / Agent / 长上下文 / 真实任务，五条战线一次列齐。所有引用的表格 / 图都标注论文具体 章节 + 页码，方便读者翻原文核对。

名词速通 · 一分钟看懂"V4 评测的五条战线"

五条战线 = 知识 / 推理 / Agent / 长上下文 / 真实任务；前四条由 standard benchmark 衡量，最后一条由内部盲评 + 工程师问卷衡量

一句话：把 standard benchmark 的"客观分数"和真实使用的"主观胜率"分开看。前者是能力上限（V4 是否在 SOTA 半径内），后者是体感下限（V4 是否真好用）。论文 §5.3 + §5.4 分别承担这两件事。

Reasoning Effort（推理强度）: 同一模型用不同长度 thinking chain 解题。V4 训练成三档：Non-think / High / Max（详见 Ch16），对应 RL 阶段不同 length penalty + context window。所有 V4 评测都标了档位，比如 "DS-V4-Pro Max"。
Pass@k / Pass@1: k 次采样里至少 1 次答对的概率（k=1 即一发命中率）。代码 / 数学 benchmark 标准指标。Pass@8 比 Pass@1 严格许多 —— 8 次都不许答对才算失败，但成本也是 8×。
Pass Rate（DeepSeek 内部 Code Agent 评测）: 论文 §5.4.4 的"Code Agent"任务通过率：从 50+ 工程师真实工单筛选 ~200 任务，人工评分后保留 30 任务作为评测集，跑通就计 pass。不是 Pass@1，是单次跑通率，因为每个任务可能涉及多文件 + 多步执行，重采样意义不大。
MRCR（Multi-Round Coreference Resolution）: 1M 长上下文核心 benchmark：在 8K~1M context 下做 8-needle 多指代解析。指标 MMR (mean reciprocal rank) 越高越好。对长上下文是命门测试，因为指代关系跨段引用，必须真正"看到"远端 token 才能答对。
HLE (Humanity's Last Exam): 2025 年推出的"前沿研究水平"高难度测试，覆盖数学 / 物理 / 化学 / 生物 / 历史 / 法律。对 reasoning effort 极敏感：Non-think 几乎全错，Max 模式下 V4-Pro 拿到 ~38%。
Putnam Practical / Frontier Regime（论文 Figure 8, p. 40）: 形式化数学的双轨设计：Practical（Putnam-200 Pass@8 + 最小工具 + 受限采样，测"工程友好"上限）和 Frontier（Putnam-2025 hybrid formal-informal + 大算力，测"理论可达"上限）。两轨同评，反映模型在受限与放开两种条件下的能力分布。
Codeforces Rating（Elo）: 实时编程竞赛 Elo 评级，与人类选手在同一池里排位。V4-Pro Max 拿到 3206（论文 Table 6, p. 38），相当于人类前 23 名，是首个在 Codeforces 上压过 GPT-5.4 与 Gemini-3.1-Pro 的开源模型。
SimpleQA-Verified: 简单事实问答的精确匹配版本（每答必须精确，无 partial credit）。对幻觉极敏感：模型不知道就乱答的话，分数会塌。是"知识储量"的金标准之一。
Agentic Search vs RAG（论文 §5.4.2, p. 42）: RAG：retrieval 一次后把结果喂给模型；Agentic Search：模型可迭代调用 search/fetch 工具直到满意。前者对应 Non-think 模式、后者对应 Think 模式。Agentic 版总成本仅略高于 RAG，但复杂任务提升显著（Table 9 vs Table 11）。
真实任务 / Real-World Task（论文 §5.4, p. 41-44）: 论文专门构造的非 benchmark 评测：中文写作、搜索、白领任务、Code Agent 四类，由专业标注员或工程师做盲评 / 问卷，衡量 standard benchmark 不覆盖的体感维度（风格、礼貌、格式、上下文记忆）。

一句话定位：本附录把 V4 报告 §5.3-§5.4（p. 36-44）的所有评测数据按"能力上限 + 体感下限"重新组织，每个表 / 图都明确标到论文章节 + 页码，方便读者翻原文核对。读完应能回答："V4 在哪条战线 SOTA、哪条战线落后多少、哪些短板还在"三个问题。

A.1 Benchmark 跑分（论文 §5.3, p. 36-41）

关键定位（V4-Pro-Max 概览）

知识（论文 Table 6, p. 38）：SimpleQA-Verified 上比 GPT-5.4-xHigh、K2.6-Thinking 高 20+ 分，仍落后 Gemini-3.1-Pro-High（57.9 vs 75.6）。
推理（论文 Table 6, p. 38 + Figure 10, p. 41）：HMMT/IMO/Apex 接近 GPT-5.4，落后 SOTA 约 3-6 个月（论文 §5.3.2 自评）。
Agent（论文 Table 6, p. 38 + Table 8, p. 44）：内部 Code Agent 评测中超越 Sonnet 4.5、接近 Opus 4.5；Codeforces Elo 3206。
长上下文（论文 Figure 9, p. 40）：MRCR 1M 上 83.5（Gemini-3.1-Pro 76.3，Opus 4.6 92.9）；CorpusQA 1M 上 62.0。
形式化数学（论文 Figure 8, p. 40）：Putnam-2025 在 hybrid formal-informal 设置下拿下完美 120/120。

V4 论文 Figure 1：左侧 7 项 benchmark 柱状对比，右侧 single-token FLOPs 与 KV cache 随序列长度变化 — **图 A-1 · V4-Pro-Max 全景对比（论文 Figure 1，p. 1，封面图）。** 左：在 7 个核心 benchmark 上 V4-Pro-Max（深蓝）vs Claude-Opus-4.6-Max / GPT-5.4-xHigh / Gemini-3.1-Pro-High 的柱状分数 —— Knowledge & Reasoning 段（SimpleQA-Verified / HLE / Apex Shortlist / Codeforces）+ Agentic Capabilities 段（SWE-Verified / TerminalBench 2.0 / Toolathlon）。右上：single-token FLOPs vs token position（K），V4-Pro 在 1024K 时仅是 V3.2 的 *1/3.7*，V4-Flash 仅 *1/9.8*。右下：累积 KV cache (GiB) vs 序列长度，V4-Flash 是 V3.2 的 *1/13.7*，V4-Pro 是 V3.2 的 *1/9.5*。这一张图把 Part 2（架构）和 Part 4（评测）的所有承诺压成一页。来源：DeepSeek-V4 技术报告封面 Figure 1，p. 1。

1. 三档 reasoning effort 的代价曲线（论文 Figure 10, p. 41）

V4 论文 Figure 10：HLE 与 TerminalBench 2.0 在 None/High/Max 三档下的精度-token 散点 — **图 A-2 · HLE 与 TerminalBench 2.0 的精度-token 曲线（论文 Figure 10，§5.3.2，p. 41）。** 横轴 Total Tokens（推理消耗），纵轴 Pass@1 (%)。 **左 HLE**：V4-Pro 与 V4-Flash 从 None → High → Max 三档逐档攀升，Pro-Max 摸到 ~38%，Flash-Max ~33%；V3.2-Speciale 仅在 Think 模式下 ~15%。 **右 TerminalBench 2.0**：V4-Pro Max 接近 70%，V4-Flash Max ~60%，V3.2 折合到 Think 也只 ~30%。两张图都在告诉一个事实 —— *V4 三档 reasoning effort（Ch16）兑现了"同模型覆盖 100× token budget"的承诺*。来源：DeepSeek-V4 技术报告 §5.3.2 Evaluation Results，Figure 10，p. 41。

论文 Figure 10（p. 41）的 HLE 与 TerminalBench 2.0 曲线：Non-think → Think High → Think Max 三档 token 成本接近线性，但 Pass@1 增量显著。这条曲线说明三件事：

Max 不是简单加更多 think token，而是 RL 阶段降低长度惩罚 + 增大上下文窗口（Ch16 §4 详述：context 8K / 128K / 384K 对应三档）；
同一 reasoning budget 下，V4 的 token 利用率高于 V3.2-Speciale（论文 Figure 10 中 V3.2-Speciale 的 None/High 点位明显低于 V4 同等档）；
Flash-Max 与 Pro-Max 在简单任务上几乎重合，复杂任务（如 Apex / HLE）才显著拉开。

📖 为什么 Pass@1 随 token 增加是"凹"形而非线性

设单 token 解题贡献的边际信息为 $\Delta I(t)$，则总解题概率 $P(\text{pass}) \approx 1 - \exp\!\big(\!-\!\sum_t \Delta I(t)\big)$：

低 budget 下：每个 think token 都做新工作（探索新分支），$\Delta I$ 大；
高 budget 下：模型已经把主要 lemma 推完，剩下 token 在验证 / 重述，$\Delta I$ 衰减；
所以 Pass@1 随 budget 是对数饱和形，不是线性 —— 这就是 Figure 10 曲线的形状根源。

实际意义：很难任务下"再加 token" 仍有收益（Max 比 High 贵 2× 但精度仍能涨 2–3 分）；简单任务上 Max 浪费（多花 60K token 涨不到 1 分）。这就是为什么 V4 把三档训成三个 checkpoint 而非用同一 checkpoint 配不同 budget。

2. MRCR 1M 衰减曲线（论文 Figure 9, p. 40）

V4 论文 Figure 9：MRCR 8-needle 在 8K-1M 输入下 Average MMR 衰减曲线 — **图 A-3 · MRCR 8-needle 长上下文衰减曲线（论文 Figure 9，§5.3.2，p. 40）。** 横轴 8K → 1024K 输入 token，纵轴 Average MMR。32K 处 V4-Pro-Max 摸到峰值 0.94，V4-Flash-Max 0.87；进入 256K 后两条曲线一起下滑，**1024K 时 Pro 降至 0.59、Flash 降至 0.49**。解读：CSA + HCA + 长 context schedule（Ch13）让 128K 之内几乎无衰减、256K-512K 有可控下降；超过 512K 后召回准确率明显折损 —— 这是 V4 长上下文能力的*真实边界*，比厂商常说的"支持 1M"更诚实。来源：DeepSeek-V4 技术报告 §5.3.2 Evaluation Results，Figure 9，p. 40。

论文 Figure 9（p. 40）展示 V4 在 MRCR 8-needle 任务上从 8K 到 1M 的衰减。Pro-Max 在 8K~128K 区间稳定在 0.85+，256K 后明显下滑，1M 时降至 0.59（Flash-Max 同长度从 0.87 衰减到 0.49）。

数值演练 · MRCR 衰减点位论文 Figure 9（p. 40）数据点（V4-Pro-Max）：

8K → 32K：0.90 → 0.94（峰值），仍在涨，因为更多 context 让指代消歧更容易；
32K → 128K：0.94 → 0.92，平稳；
128K → 256K：0.92 → 0.82，开始衰减；
256K → 1M：0.82 → 0.59，急降 23 个百分点。

这说明 V4 的"1M 可用"是真的（59% 仍远高于 baseline 25%），但1M 下的能力已不是 128K 下那种"几乎无衰减"的表现。论文 §6（p. 44）conclusion 明确说要继续投入这块。

3. 形式化数学：Putnam 双轨制（论文 Figure 8, p. 40）

V4 论文 Figure 8：Putnam Practical / Frontier 双轨水平柱状对比 — **图 A-4 · Putnam 双轨评测（论文 Figure 8，§5.3.2，p. 40）。** **左 Practical Regime**（Putnam-200 Pass@8，受限 tools + bounded sampling）：Seed-1.5-Prover 26.50 / Gemini-3-Pro 26.50 / Seed-2.0-Pro 35.50 / DeepSeek-V4-Flash-Max **81.00**。 **右 Frontier Regime**（Putnam-2025 hybrid formal-informal，大算力）：Aristotle 100/120 / Seed-1.5-Prover 110/120 / Axiom 120/120 / DeepSeek-V4 120/120。两套规则下 V4 都摸到了天花板，体现 Specialist 阶段对数学专家的精雕。来源：DeepSeek-V4 技术报告 §5.3.2 Evaluation Results，Figure 8，p. 40。

设置（论文 Figure 8）	含义	V4-Flash-Max	对照
Practical Regime	Putnam-200 Pass@8，最小工具与有限采样	81.0	Seed-2.0-Prover 35.5 / Gemini-3-Pro 26.5
Frontier Regime	Putnam-2025 hybrid formal-informal + 大算力	120/120	Aristotle 100/120 / Axiom 120/120

双轨制说明 V4 既能在受限工具/采样下打满（Practical 81.0 远超开源 prover），又能在大算力下与最强 prover 持平（Frontier 完美 120/120 与 Axiom 并列）。

4. 与闭源旗舰对比（论文 Table 6, p. 38）

论文 Table 6（p. 38，本附录节选 Pro-Max 对比 vs 闭源旗舰）：

Benchmark	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	DS-V4-Pro Max
MMLU-Pro (EM)	89.1	87.5	91.0	87.5
SimpleQA-Verified (Pass@1)	46.2	45.3	75.6	57.9
GPQA Diamond (Pass@1)	91.3	93.0	94.3	90.1
HLE (Pass@1)	40.0	39.8	44.4	37.7
LiveCodeBench (Pass@1)	88.8	—	91.7	93.5
Codeforces (Rating)	—	3168	3052	3206
HMMT 2026 Feb (Pass@1)	96.2	97.7	94.7	95.2
Apex Shortlist (Pass@1)	85.9	78.1	89.1	90.2
SWE Verified (Resolved)	80.8	—	80.6	80.6
MRCR 1M (MMR)	92.9	—	76.3	83.5
BrowseComp (Pass@1)	83.7	82.7	85.9	83.4
HLE w/ tools (Pass@1)	53.1	52.0	51.6	48.2

怎么读这张表

V4-Pro 是第一份在 Codeforces / LiveCodeBench / Apex Shortlist 上压过闭源旗舰的开源模型；知识类（MMLU-Pro / SimpleQA / GPQA / HLE）落后 Gemini-3.1-Pro 与 GPT-5.4；长上下文 1M 仍未追上 Opus 4.6（83.5 vs 92.9）。论文 §5.3.2（p. 38）自评：开源模型相对前沿闭源仍有约 3-6 个月差距。

5. V4 自身三档对比（论文 Table 7, p. 39）

同款 Flash / Pro 在 Non-Think / High / Max 三档下的全 benchmark 表现，论文 Table 7（p. 39）。最显著的"档位拉大"出现在知识与推理类：

Benchmark	Pro Non-Think	Pro High	Pro Max	从 Non→Max 提升
SimpleQA-Verified	45.0	46.2	57.9	+12.9
HLE (Pass@1)	7.7	34.5	37.7	+30.0
Codeforces Rating	—	2919	3206	+287
HMMT 2026 Feb	31.7	94.0	95.2	+63.5
Apex Shortlist	9.2	85.5	90.2	+81.0
MRCR 1M (MMR)	44.7	83.3	83.5	+38.8
SWE Verified	73.6	79.4	80.6	+7.0

推理类（HMMT / Apex / HLE）从 Non-think 到 Max 提升 30-80 分；知识 / 工程类（SimpleQA / SWE）提升 7-13 分。这与 Ch16 §4 demo 的"三档曲线在难任务上才显著分化"完全吻合。

A.2 真实任务胜率（论文 §5.4, p. 41-44）

为什么要单列"真实世界"

标准 benchmark 在准确率上能拉开排名，但用户体感里"是否好用"还包括风格、礼貌、格式、上下文记忆、工具协调。论文 §5.4（p. 41-44）专门构造了 4 类非 benchmark 评测来覆盖这些维度。

1. 中文写作（论文 §5.4.1, p. 41-42）

对比基线 Gemini-3.1-Pro，DeepSeek-V4-Pro 表现：

维度	胜率	论文出处	说明
Functional Writing 综合胜率	62.7% vs 34.1%	Table 12（§5.4.1, p. 41）	Gemini 在中文场景下偏好 override user 显式要求，V4 更"听话"
Creative Instruction Following	60.0%	Table 13（§5.4.1, p. 41）	边际优势
Creative Writing Quality	77.5%	Table 13（§5.4.1, p. 41）	显著优势
vs Opus 4.5（最难子集）	45.9% vs 52.0%	Table 14（§5.4.1, p. 41）	高复杂度 / 多轮约束下 Opus 仍领先

2. 搜索：RAG 与 Agentic Search 的双轨（论文 §5.4.2, p. 42）

DeepSeek Chat 的两种搜索模式分别对应两种 reasoning 模式：

Non-think 模式 → RAG：传统 retrieval-augmented；论文 Table 11（§5.4.2, p. 42）报告 V4-Pro 全面优于 V3.2，单值搜索与"规划+策略"任务上提升最大；
Think 模式 → Agentic Search：模型可迭代调用 search/fetch 工具，按"thinking budget"安排；论文 Table 9（§5.4.2, p. 42）显示总成本仅比 RAG 略高（Table 10, §5.4.2, p. 42 给出成本对比），但复杂任务提升显著。

3. 白领任务（论文 §5.4.3, p. 42-43）

V4 论文 Figure 11+12：白领任务胜率分布与四维度明细分 — **图 A-5 · 白领任务胜负平分布与维度细分（论文 Figure 11 + Figure 12，§5.4.3，p. 43）。** **左 Figure 11 Win Rate**：V4-Pro-Max vs Opus-4.6-Max，按 analysis / generation / editing / overall 四组堆叠 Win / Tie / Lose（蓝/灰/红）。*analysis 段 V4 win 39.0% / lose 33.0% 略微领先，generation 52.0% / 38.0% 明显领先，editing 47.0% / 25.0% 大幅领先，overall 53.0% / 37.0% 整体领先*。 **右 Figure 12 Detailed Scores**：四维度评分 Task Completion 99.13 / 96.88、Instruction Following 87.76 / 84.88、Content Quality 83.32 / 79.10、Formatting Aesthetics 72.68 / 84.06、Overall ~84 / ~83。*唯一明显落后的是 Formatting Aesthetics*—— 印证正文中提到的"slide / 视觉版面设计能力一般"。来源：DeepSeek-V4 技术报告 §5.4.3 White-Collar Task，Figure 11 + Figure 12，p. 43。

30 个高级 Chinese Professional Workflows，覆盖金融、教育、法律、科技等 13 行业，由专业标注员对 V4-Pro-Max vs Opus-4.6-Max 做盲评。论文 Figure 11（§5.4.3, p. 43）提供胜负平分布：

子类（论文 Figure 11, p. 43）	胜	平	负	非负率
分析类（analysis）	55%	8%	37%	63%
生成类（generation）	52%	10%	38%	62%
编辑类（editing）	47%	18%	35%	65%
综合（overall）	53%	10%	37%	63%

论文 Figure 12（§5.4.3, p. 43）按四个维度做明细评分：V4-Pro-Max 在 Task Completion（98.32 vs 96.68）与 Content Quality（83.32 vs 78.00）占优；Instruction Following（87.76 vs 88.68）略输 Opus；Formatting Aesthetics（76.68 vs 72.68）整体仍有提升空间，论文明确指出 slide-style 视觉设计偏弱（Figures 13-15, §5.4.3, p. 43 给出真实输出样张）。

4. Code Agent（论文 §5.4.4, p. 44, Table 8）

论文从内部 50+ 工程师真实工单里筛选 ~200 个任务，覆盖 PyTorch / CUDA / Rust / C++ 的 feature / bugfix / refactor / 诊断；人工评分后保留 30 个作为评测集（Table 8, §5.4.4, p. 44）。

模型	Pass Rate (%)
Haiku 4.5	13
Sonnet 4.5	47
DeepSeek-V4-Pro-Max	67
Opus 4.5	70
Opus 4.5 Thinking	73
Opus 4.6 Thinking	80

论文 §5.4.4（p. 44）报告：内部问卷（N=85 工程师）显示 52% 表示愿意把 V4-Pro 作为日常默认编码模型，39% 倾向支持，< 9% 反对。

Demo · 五条战线上 V4-Pro-Max 与四款闭源旗舰的相对位置（点切换基线）

交互

读图法：雷达图五轴是五条战线 —— 知识 / 推理 / 长上下文 / 编码 / Agent 工具。每轴数据是该战线上最具代表性 benchmark 的标准化分数（来自论文 Table 6, p. 38；MRCR 来自 Figure 9, p. 40）。
切换不同对手按钮看：vs Gemini，V4 在编码大幅领先、知识落后；vs GPT-5.4，V4 推理基本持平、编码领先；vs Opus 4.6，V4 编码持平 / 略胜、长上下文落后约 9 分。三条战线上的领先程度差异正好对应论文 §5.3.2（p. 38）"3-6 个月差距"的非均匀分布。

真实任务里 V4 的短板（论文 §5.4.4 末段, p. 44）

偶尔出现 trivial mistakes（小错误、低级 bug）；
对模糊 prompt 的"过度推理"—— 容易把简单任务做成复杂任务；
slide / 视觉版面设计能力一般（论文 Figures 13-15, p. 43）；
条件复杂的多轮 instruction following 仍弱于 Opus 4.5（论文 Table 14, p. 41 显示最难子集胜率 45.9% vs 52.0%）。

A.3 一句话总结

把整章压成一句话

V4-Pro-Max 是第一份在 Codeforces / LiveCodeBench / Apex Shortlist 上压过闭源旗舰的开源模型，知识类落后 Gemini-3.1-Pro 约 18 分（SimpleQA-Verified）、长上下文 1M 落后 Opus 4.6 约 9 分（MRCR）；论文 §5.3.2（p. 38）自评开源相对前沿闭源仍有 3-6 个月差距。真实任务（§5.4, p. 41-44）里 V4 在中文写作 / 编码 Agent 上对 Opus 4.5 显著占优，多轮复杂 Instruction Following 与视觉版面设计仍是短板。