第三部分 · 预训练
32T tokens 怎么挑、loss spike 怎么压、Base 模型怎么读评分。
读完这部分,你将能够
- 列出 V4 的 32T 预训练数据与 V3 相比的 4 个关键差异,并说出每个差异背后的目的。
- 读懂 V4-Pro / Flash 的关键超参表,并解释 4K → 16K → 64K → 1M 序列长度调度的工程意义。
- 解释 Anticipatory Routing 的"用 θ_t 算特征、用 θ_{t-Δt} 算路由"为什么能压住 loss spike。
- 说出 SwiGLU Clamping 的两组阈值(线性 [-10,10] / gate ≤ 10),并解释 DeepSeek 为什么愿意公开"还没理解清楚"的 trick。
- 读懂 V3.2-Base / V4-Flash-Base / V4-Pro-Base 的同框对比表,指出"Flash 用更小的参数赢更多 benchmark"的关键证据。
- 说出为什么 Base 评测对后续 OPD 的"可达 ceiling"具有决定性。
本部分章节路线图
32T Tokens 数据构造
长文档优先、采样级 mask、超参表速查。
Anticipatory & SwiGLU 钳位
两个朴素而极有效的稳定性 trick。
Base 模型评测
三模型同框对比,后训练能蒸出多大 ceiling 由此决定。
如果你只关心"V4 与 V3 在数据 / 稳定性上有哪些不同",Ch13 + Ch14 已经够。Ch15 是把 architecture + 数据红利量化的桥段——在跳进后训练之前,请确认 Pro-Base 的"高起点"是真实存在的。
本部分小结
核心要点回顾
- 数据(Ch13):32T 长文档优先、采样级 mask、tokenizer 沿用、agentic mid-training 注入;序列长度 4K → 16K → 64K → 1M 阶梯式扩。
- 稳定(Ch14):Anticipatory Routing 把"路由 / 主干"更新解耦压 spike;SwiGLU Clamping 双阈值(线性 [-10,10] / gate ≤ 10)灭 outlier。
- 评测(Ch15):Flash-Base 用 284B 总参反超 V3.2-Base 671B;Pro-Base 在 17 个 benchmark 拿下 14 个第一,FACTS Parametric +35.5、Simple-QA +27。
关键公式 / 参数速查
| 位置 | 表达 / 数值 | 含义 |
|---|---|---|
| SwiGLU 钳位 | 线性 [-10, 10] / gate ≤ 10 | 消 outlier 不掉性能 |
| Anticipatory 开销 | ~20%(仅 spike 时) | 平时回退 standard 路由 |
| 序列长度调度 | 4K → 16K → 64K → 1M | 阶梯式扩长上下文 |
| 训练 token | 32T (Flash) / 33T (Pro) | 近似总规模 |
| 采样级 mask | 同源样本可见 / 跨源屏蔽 | V4 与 V3 的关键差异 |
设计直觉地图
- 稳定性的两个 trick 是"承认子系统会发散,但把发散关在小窗口里"—— 与 mHC(Ch3)的"残差矩阵从主干隔出"是同一种思路。
- Base 评测里 Flash-Base 反超 V3.2-Base 的事实直接说明:架构红利 > 参数红利。这是 Part 1 + Part 2 在数据上的"兑现单"。
- 序列长度调度不是单纯"扩 ctx",而是稀疏 attention 切换的时机—— sparse attention 在 64K 阶段才接管,前 1T token 用 dense warmup。
自检题
Q1. V4 与 V3 在 attention masking 上的最大差异是什么?为什么这个改动重要?
查看参考答案
V4 引入 sample-level attention masking—— 同一 packed sequence 中跨样本的 token 不可见。V3 没这一步。改动重要是因为长文档优先后样本平均更长 + packing 概率上升,cross-sample 信号会引入隐性"关联噪声",sample-level mask 把每个样本当独立 context 处理,干净得多。
Q2. Anticipatory Routing 用 θ_{t-Δt} 算路由 index,为什么不会让训练偏离方向?
查看参考答案
(1) 仅 spike 检测到时短暂触发,平时回退 standard;(2) Δt 很小,θ_{t-Δt} 与 θ_t 差距可控;(3) 主干特征仍用 θ_t;只是路由这一步被解耦,不影响信号本身的传递。本质是"治标"而不是"治本"——但治标足够。
Q3. 为什么 Pro-Base 上 FACTS Parametric +35.5 这个数字尤其值得关注?
查看参考答案
FACTS Parametric 测的是模型参数里"真"事实知识的浓度,与训练数据规模 / 质量直接挂钩。+35.5 说明 V4 的数据策展(长文档 / 多语言 / agentic mid-training)真正在知识密度上提质。这给后续 OPD 蒸馏定下了高 ceiling —— teacher 知道得多,student 才学得到。