第四部分 · 后训练
V4 与 V3 最显著的范式差异 —— 把混合 RL 整体替成 OPD,配套是 GRM 评分、Tool 接口三件套、十万级沙箱。
读完这部分,你将能够
- 讲清"先做 N 个 specialist,再用 OPD 合成一个 student"的两阶段范式,并解释这与 V3 混合 RL 的根本不同。
- 列出 Non-think / Think High / Think Max 三档的训练 context(8K/128K/384K)与响应格式差异。
- 说出 Generative Reward Model(GRM)相比 scalar RM 的两个优势。
- 能复述 OPD 损失
L = Σ w_i KL(π_θ ‖ π_E_i),并解释为什么必须是 reverse KL + on-policy。 - 列出全词表 OPD 的四个工程支柱(FP4 集成 / Teacher Scheduling / WAL Rollout / Million-token RL)。
- 说出 Quick Instruction 的 6 个特殊 token 各自的角色,以及它为何能省掉一个独立的小模型。
- 解释 token 粒度 WAL 为什么不能"从头重生" unfinished requests,以及它如何避免 length bias。
- 列出 DSec 的四种执行衬底(Function / Container / microVM / fullVM)与 3FS 的协作关系。
本部分章节路线图
专家训练 + Reasoning Effort
SFT → GRPO → GRM → 三档 thinking budget。
Tool 接口三件套
DSML schema / Interleaved Thinking / Quick Instruction。
OPD:多教师反向蒸馏
10+ 个领域专家 → 全词表 reverse KL → 一个统一学生。
RL / OPD 工程基础设施
FP4 / Teacher Sched / WAL / Million-token RL —— 让 OPD 真正能跑。
DSec 沙箱平台
四衬底 + 3FS 横向扩 → 单集群 10w+ sandbox。
Ch18 是范式置换的高潮,Ch19 把"原理上可行"变成"工程上能跑"。如果时间紧,按这个顺序读:18.1–18.3 → 19.2 → 19.3 → 20.1。Ch16/17 是 Specialist 与交互层,Ch20 是执行层。
本部分小结
核心要点回顾
- Specialist(Ch16):SFT → GRPO,每个专家在三档 reasoning effort 下分别训练;GRM 用"以生成代评分"省掉海量人工标注。
- 交互(Ch17):
<|DSML|>替代 JSON tool-call;Interleaved Thinking 在 tool-calling 模式跨轮保留 thinking;Quick Instruction 6 token 共享主 KV,TTFT 大幅降低。 - 范式(Ch18):V3 的"混合 RL"被整体替成 OPD —— 学生 on-policy rollout,向 N 个领域 teacher 求 reverse KL 加权和;选 reverse KL 是因为 mode-seeking 适合"合并"。
- 工程(Ch19):FP4 全量启用 + 不实例化 logits + 按 teacher 排序 batching + async I/O + TileLang KL kernel = 全词表 trillion 教师 KL 才跑得起;token 粒度 WAL 让 rollout 可抢占可容错且无 length bias。
- 沙箱(Ch20):DSec 四衬底 + 单 SDK + 3FS 横向扩 → 10w+ sandbox 同集群;分层 EROFS / overlaybd 让冷启动毫秒化。
关键公式 / 参数速查
| 位置 | 表达 / 数值 | 含义 |
|---|---|---|
| OPD 损失 | L = Σ_i w_i · KL(π_θ ‖ π_{E_i}) |
reverse KL,on-policy rollout,多教师加权 |
| 三档 RL 上下文 | 8K / 128K / 384K | Non-think / High / Max |
| Quick Instruction | 6 个特殊 token 共享主 KV | 免独立小模型,TTFT 降 |
| FP4 适用范围 | rollout + teacher / reference forward | backward 仍 FP8 |
| DSec 规模 | 10w+ sandbox / 单集群 | 架在 3FS 上横向扩 |
| WAL 粒度 | token-level | 无 length bias |
设计直觉地图
- OPD 取代混合 RL 的核心动机:RL 只学到"reward 期望",KL 蒸馏能学到"分布形状" —— 所以 reverse KL 比单纯 reward 更适合"知识合并"。
- Anticipatory Routing(Ch14)与 mHC(Ch3)共享同一种思路:把"会爆炸"的路径在更新阶段隔离掉。Quick Instruction 与 KV 异构(Ch12)共享另一种思路:把"控制平面"压进"数据平面"。
- Ch19 的四个工程支柱中,Teacher Scheduling 是 V4 区别于其它开源蒸馏工作的真正护城河 —— 没有这一节,trillion 教师全词表 KL 只是 PPT。
自检题
Q1. 为什么 OPD 选用 reverse KL(KL(π_θ ‖ π_E))而不是 forward KL?
查看参考答案
reverse KL 是 mode-seeking:让学生分布去贴 teacher 分布的高概率区域。配合 on-policy rollout,学生不会被 teacher 的低概率长尾误导,更适合"把多个领域 teacher 合并到一个学生"。forward KL 反而是 mass-covering,会把学生拉成 mean of teachers,丢失各 teacher 的强项。
Q2. trillion 教师做全词表 KL,单凭"加显存"为什么不可能?V4 是怎么破的?
查看参考答案
|V| > 100k 的 logits × batch × seq 已经吃光显存。V4:teacher 权重 offload 到中央存储按需加载;不实例化 logits,只缓存 last hidden state;batch 内按 teacher index 排序让每个 prediction head 只装载一次;logits async I/O 不阻塞前向;KL 由专门的 TileLang kernel 计算避免动态分配。
Q3. 为什么 unfinished rollout 不能"从头重生"?length bias 是什么?
查看参考答案
从头重生意味着所有失败的长生成都被丢弃 → 训练数据里"成功生成"的平均长度被系统性低估 → 学生学到"短答案更可能成功"的虚假信号。token 粒度 WAL 的意义就是让长生成有机会"续上",避免分布偏移。
Q4. Quick Instruction 把 6 个辅助任务编码成 token 而非小模型,工程收益是什么?
查看参考答案
(1) 复用主 KV cache,零额外 prefill —— TTFT 降低;(2) 消掉一个独立 inference 进程,运维与版本对齐成本归零;(3) 所有辅助任务能"自然地"利用主模型的能力,不再需要单独训练小模型。这是把"控制平面"压进"数据平面"的典型系统级优化。