第三部分 · 预训练

PART 3 · 3 章 · 预训练

第三部分 · 预训练

32T tokens 怎么挑、loss spike 怎么压、Base 模型怎么读评分。

章节数3 章（Ch13–Ch15） 预计阅读30–40 分钟难度★★★☆☆ 前置tokenization / FIM、MoE 路由、long-context 训练调度

▸ 学习目标 ▸ 章节路线图 ▾ 本部分小结 ▾ 自检题

▸ LEARNING OBJECTIVES

读完这部分，你将能够

列出 V4 的 32T 预训练数据与 V3 相比的 4 个关键差异，并说出每个差异背后的目的。
读懂 V4-Pro / Flash 的关键超参表，并解释 4K → 16K → 64K → 1M 序列长度调度的工程意义。
解释 Anticipatory Routing 的"用 θ_t 算特征、用 θ_{t-Δt} 算路由"为什么能压住 loss spike。
说出 SwiGLU Clamping 的两组阈值（线性 [-10,10] / gate ≤ 10），并解释 DeepSeek 为什么愿意公开"还没理解清楚"的 trick。
读懂 V3.2-Base / V4-Flash-Base / V4-Pro-Base 的同框对比表，指出"Flash 用更小的参数赢更多 benchmark"的关键证据。
说出为什么 Base 评测对后续 OPD 的"可达 ceiling"具有决定性。

本部分章节路线图

CH 13

32T Tokens 数据构造

长文档优先、采样级 mask、超参表速查。

CH 14

Anticipatory & SwiGLU 钳位

两个朴素而极有效的稳定性 trick。

CH 15

Base 模型评测

三模型同框对比，后训练能蒸出多大 ceiling 由此决定。

如何阅读这部分

如果你只关心"V4 与 V3 在数据 / 稳定性上有哪些不同"，Ch13 + Ch14 已经够。Ch15 是把 architecture + 数据红利量化的桥段——在跳进后训练之前，请确认 Pro-Base 的"高起点"是真实存在的。

读完 3 章后,回来看这里

本部分小结

▾ KEY TAKEAWAYS

核心要点回顾

数据（Ch13）：32T 长文档优先、采样级 mask、tokenizer 沿用、agentic mid-training 注入；序列长度 4K → 16K → 64K → 1M 阶梯式扩。
稳定（Ch14）：Anticipatory Routing 把"路由 / 主干"更新解耦压 spike；SwiGLU Clamping 双阈值（线性 [-10,10] / gate ≤ 10）灭 outlier。
评测（Ch15）：Flash-Base 用 284B 总参反超 V3.2-Base 671B；Pro-Base 在 17 个 benchmark 拿下 14 个第一，FACTS Parametric +35.5、Simple-QA +27。

关键公式 / 参数速查

位置	表达 / 数值	含义
SwiGLU 钳位	线性 [-10, 10] / gate ≤ 10	消 outlier 不掉性能
Anticipatory 开销	~20%（仅 spike 时）	平时回退 standard 路由
序列长度调度	4K → 16K → 64K → 1M	阶梯式扩长上下文
训练 token	32T (Flash) / 33T (Pro)	近似总规模
采样级 mask	同源样本可见 / 跨源屏蔽	V4 与 V3 的关键差异

设计直觉地图

稳定性的两个 trick 是"承认子系统会发散，但把发散关在小窗口里"—— 与 mHC（Ch3）的"残差矩阵从主干隔出"是同一种思路。
Base 评测里 Flash-Base 反超 V3.2-Base 的事实直接说明：架构红利 > 参数红利。这是 Part 1 + Part 2 在数据上的"兑现单"。
序列长度调度不是单纯"扩 ctx"，而是稀疏 attention 切换的时机—— sparse attention 在 64K 阶段才接管，前 1T token 用 dense warmup。

自检题

Q1. V4 与 V3 在 attention masking 上的最大差异是什么？为什么这个改动重要？

查看参考答案

V4 引入 sample-level attention masking—— 同一 packed sequence 中跨样本的 token 不可见。V3 没这一步。改动重要是因为长文档优先后样本平均更长 + packing 概率上升，cross-sample 信号会引入隐性"关联噪声"，sample-level mask 把每个样本当独立 context 处理，干净得多。

Q2. Anticipatory Routing 用 θ_{t-Δt} 算路由 index，为什么不会让训练偏离方向？

查看参考答案

(1) 仅 spike 检测到时短暂触发，平时回退 standard；(2) Δt 很小，θ_{t-Δt} 与 θ_t 差距可控；(3) 主干特征仍用 θ_t；只是路由这一步被解耦，不影响信号本身的传递。本质是"治标"而不是"治本"——但治标足够。

Q3. 为什么 Pro-Base 上 FACTS Parametric +35.5 这个数字尤其值得关注？

查看参考答案

FACTS Parametric 测的是模型参数里"真"事实知识的浓度，与训练数据规模 / 质量直接挂钩。+35.5 说明 V4 的数据策展（长文档 / 多语言 / agentic mid-training）真正在知识密度上提质。这给后续 OPD 蒸馏定下了高 ceiling —— teacher 知道得多，student 才学得到。

预留位：4K → 16K → 64K → 1M 序列长度阶梯调度的可视化、Anticipatory routing 的 θ_t / θ_{t-Δt} 解耦动画、Base 三模型按维度对比 radar / bar。