第三部分 · 预训练
封面/第三部分 · 预训练
PART 3 · 3 章 · 预训练

第三部分 · 预训练

32T tokens 怎么挑、loss spike 怎么压、Base 模型怎么读评分。

章节数3 章(Ch13–Ch15) 预计阅读30–40 分钟 难度★★★☆☆ 前置tokenization / FIM、MoE 路由、long-context 训练调度
▸ LEARNING OBJECTIVES

读完这部分,你将能够

  • 列出 V4 的 32T 预训练数据与 V3 相比的 4 个关键差异,并说出每个差异背后的目的。
  • 读懂 V4-Pro / Flash 的关键超参表,并解释 4K → 16K → 64K → 1M 序列长度调度的工程意义。
  • 解释 Anticipatory Routing 的"用 θ_t 算特征、用 θ_{t-Δt} 算路由"为什么能压住 loss spike。
  • 说出 SwiGLU Clamping 的两组阈值(线性 [-10,10] / gate ≤ 10),并解释 DeepSeek 为什么愿意公开"还没理解清楚"的 trick。
  • 读懂 V3.2-Base / V4-Flash-Base / V4-Pro-Base 的同框对比表,指出"Flash 用更小的参数赢更多 benchmark"的关键证据。
  • 说出为什么 Base 评测对后续 OPD 的"可达 ceiling"具有决定性。

本部分章节路线图

如何阅读这部分

如果你只关心"V4 与 V3 在数据 / 稳定性上有哪些不同",Ch13 + Ch14 已经够。Ch15 是把 architecture + 数据红利量化的桥段——在跳进后训练之前,请确认 Pro-Base 的"高起点"是真实存在的。

读完 3 章后,回来看这里

本部分小结

▾ KEY TAKEAWAYS

核心要点回顾

  • 数据(Ch13):32T 长文档优先、采样级 mask、tokenizer 沿用、agentic mid-training 注入;序列长度 4K → 16K → 64K → 1M 阶梯式扩。
  • 稳定(Ch14):Anticipatory Routing 把"路由 / 主干"更新解耦压 spike;SwiGLU Clamping 双阈值(线性 [-10,10] / gate ≤ 10)灭 outlier。
  • 评测(Ch15):Flash-Base 用 284B 总参反超 V3.2-Base 671B;Pro-Base 在 17 个 benchmark 拿下 14 个第一,FACTS Parametric +35.5、Simple-QA +27。

关键公式 / 参数速查

位置表达 / 数值含义
SwiGLU 钳位线性 [-10, 10] / gate ≤ 10消 outlier 不掉性能
Anticipatory 开销~20%(仅 spike 时)平时回退 standard 路由
序列长度调度4K → 16K → 64K → 1M阶梯式扩长上下文
训练 token32T (Flash) / 33T (Pro)近似总规模
采样级 mask同源样本可见 / 跨源屏蔽V4 与 V3 的关键差异

设计直觉地图

  • 稳定性的两个 trick 是"承认子系统会发散,但把发散关在小窗口里"—— 与 mHC(Ch3)的"残差矩阵从主干隔出"是同一种思路。
  • Base 评测里 Flash-Base 反超 V3.2-Base 的事实直接说明:架构红利 > 参数红利。这是 Part 1 + Part 2 在数据上的"兑现单"。
  • 序列长度调度不是单纯"扩 ctx",而是稀疏 attention 切换的时机—— sparse attention 在 64K 阶段才接管,前 1T token 用 dense warmup。

自检题

Q1. V4 与 V3 在 attention masking 上的最大差异是什么?为什么这个改动重要?

查看参考答案

V4 引入 sample-level attention masking—— 同一 packed sequence 中跨样本的 token 不可见。V3 没这一步。改动重要是因为长文档优先后样本平均更长 + packing 概率上升,cross-sample 信号会引入隐性"关联噪声",sample-level mask 把每个样本当独立 context 处理,干净得多。

Q2. Anticipatory Routing 用 θ_{t-Δt} 算路由 index,为什么不会让训练偏离方向?

查看参考答案

(1) 仅 spike 检测到时短暂触发,平时回退 standard;(2) Δt 很小,θ_{t-Δt} 与 θ_t 差距可控;(3) 主干特征仍用 θ_t;只是路由这一步被解耦,不影响信号本身的传递。本质是"治标"而不是"治本"——但治标足够。

Q3. 为什么 Pro-Base 上 FACTS Parametric +35.5 这个数字尤其值得关注?

查看参考答案

FACTS Parametric 测的是模型参数里"真"事实知识的浓度,与训练数据规模 / 质量直接挂钩。+35.5 说明 V4 的数据策展(长文档 / 多语言 / agentic mid-training)真正在知识密度上提质。这给后续 OPD 蒸馏定下了高 ceiling —— teacher 知道得多,student 才学得到。

预留位:4K → 16K → 64K → 1M 序列长度阶梯调度的可视化、Anticipatory routing 的 θ_t / θ_{t-Δt} 解耦动画、Base 三模型按维度对比 radar / bar。