第四部分 · 后训练
封面/第四部分 · 后训练
PART 4 · 5 章 · 后训练

第四部分 · 后训练

V4 与 V3 最显著的范式差异 —— 把混合 RL 整体替成 OPD,配套是 GRM 评分、Tool 接口三件套、十万级沙箱。

章节数5 章(Ch16–Ch20) 预计阅读50–70 分钟 难度★★★★☆ 前置SFT / RL(GRPO)、KL 蒸馏、Agent / 工具调用、3FS / 容器虚拟化
▸ LEARNING OBJECTIVES

读完这部分,你将能够

  • 讲清"先做 N 个 specialist,再用 OPD 合成一个 student"的两阶段范式,并解释这与 V3 混合 RL 的根本不同。
  • 列出 Non-think / Think High / Think Max 三档的训练 context(8K/128K/384K)与响应格式差异。
  • 说出 Generative Reward Model(GRM)相比 scalar RM 的两个优势。
  • 能复述 OPD 损失 L = Σ w_i KL(π_θ ‖ π_E_i),并解释为什么必须是 reverse KL + on-policy。
  • 列出全词表 OPD 的四个工程支柱(FP4 集成 / Teacher Scheduling / WAL Rollout / Million-token RL)。
  • 说出 Quick Instruction 的 6 个特殊 token 各自的角色,以及它为何能省掉一个独立的小模型。
  • 解释 token 粒度 WAL 为什么不能"从头重生" unfinished requests,以及它如何避免 length bias。
  • 列出 DSec 的四种执行衬底(Function / Container / microVM / fullVM)与 3FS 的协作关系。

本部分章节路线图

如何阅读这部分

Ch18 是范式置换的高潮,Ch19 把"原理上可行"变成"工程上能跑"。如果时间紧,按这个顺序读:18.1–18.3 → 19.2 → 19.3 → 20.1。Ch16/17 是 Specialist 与交互层,Ch20 是执行层。

读完 5 章后,回来看这里

本部分小结

▾ KEY TAKEAWAYS

核心要点回顾

  • Specialist(Ch16):SFT → GRPO,每个专家在三档 reasoning effort 下分别训练;GRM 用"以生成代评分"省掉海量人工标注。
  • 交互(Ch17)<|DSML|> 替代 JSON tool-call;Interleaved Thinking 在 tool-calling 模式跨轮保留 thinking;Quick Instruction 6 token 共享主 KV,TTFT 大幅降低。
  • 范式(Ch18):V3 的"混合 RL"被整体替成 OPD —— 学生 on-policy rollout,向 N 个领域 teacher 求 reverse KL 加权和;选 reverse KL 是因为 mode-seeking 适合"合并"。
  • 工程(Ch19):FP4 全量启用 + 不实例化 logits + 按 teacher 排序 batching + async I/O + TileLang KL kernel = 全词表 trillion 教师 KL 才跑得起;token 粒度 WAL 让 rollout 可抢占可容错且无 length bias。
  • 沙箱(Ch20):DSec 四衬底 + 单 SDK + 3FS 横向扩 → 10w+ sandbox 同集群;分层 EROFS / overlaybd 让冷启动毫秒化。

关键公式 / 参数速查

位置表达 / 数值含义
OPD 损失 L = Σ_i w_i · KL(π_θ ‖ π_{E_i}) reverse KL,on-policy rollout,多教师加权
三档 RL 上下文8K / 128K / 384KNon-think / High / Max
Quick Instruction6 个特殊 token 共享主 KV免独立小模型,TTFT 降
FP4 适用范围rollout + teacher / reference forwardbackward 仍 FP8
DSec 规模10w+ sandbox / 单集群架在 3FS 上横向扩
WAL 粒度token-level无 length bias

设计直觉地图

  • OPD 取代混合 RL 的核心动机:RL 只学到"reward 期望",KL 蒸馏能学到"分布形状" —— 所以 reverse KL 比单纯 reward 更适合"知识合并"。
  • Anticipatory Routing(Ch14)与 mHC(Ch3)共享同一种思路:把"会爆炸"的路径在更新阶段隔离掉。Quick Instruction 与 KV 异构(Ch12)共享另一种思路:把"控制平面"压进"数据平面"
  • Ch19 的四个工程支柱中,Teacher Scheduling 是 V4 区别于其它开源蒸馏工作的真正护城河 —— 没有这一节,trillion 教师全词表 KL 只是 PPT。

自检题

Q1. 为什么 OPD 选用 reverse KL(KL(π_θ ‖ π_E))而不是 forward KL?

查看参考答案

reverse KL 是 mode-seeking:让学生分布去贴 teacher 分布的高概率区域。配合 on-policy rollout,学生不会被 teacher 的低概率长尾误导,更适合"把多个领域 teacher 合并到一个学生"。forward KL 反而是 mass-covering,会把学生拉成 mean of teachers,丢失各 teacher 的强项。

Q2. trillion 教师做全词表 KL,单凭"加显存"为什么不可能?V4 是怎么破的?

查看参考答案

|V| > 100k 的 logits × batch × seq 已经吃光显存。V4:teacher 权重 offload 到中央存储按需加载;不实例化 logits,只缓存 last hidden state;batch 内按 teacher index 排序让每个 prediction head 只装载一次;logits async I/O 不阻塞前向;KL 由专门的 TileLang kernel 计算避免动态分配。

Q3. 为什么 unfinished rollout 不能"从头重生"?length bias 是什么?

查看参考答案

从头重生意味着所有失败的长生成都被丢弃 → 训练数据里"成功生成"的平均长度被系统性低估 → 学生学到"短答案更可能成功"的虚假信号。token 粒度 WAL 的意义就是让长生成有机会"续上",避免分布偏移。

Q4. Quick Instruction 把 6 个辅助任务编码成 token 而非小模型,工程收益是什么?

查看参考答案

(1) 复用主 KV cache,零额外 prefill —— TTFT 降低;(2) 消掉一个独立 inference 进程,运维与版本对齐成本归零;(3) 所有辅助任务能"自然地"利用主模型的能力,不再需要单独训练小模型。这是把"控制平面"压进"数据平面"的典型系统级优化。

预留位:OPD reverse KL 与 forward KL 的可视化对比、teacher scheduling 时间线动画、token-WAL 的"丢弃重跑 vs 续 decode" 演示、Quick Instruction 6-token 序列演示。