第四部分 · 后训练

PART 4 · 5 章 · 后训练

第四部分 · 后训练

V4 与 V3 最显著的范式差异 —— 把混合 RL 整体替成 OPD，配套是 GRM 评分、Tool 接口三件套、十万级沙箱。

章节数5 章（Ch16–Ch20） 预计阅读50–70 分钟难度★★★★☆ 前置SFT / RL（GRPO）、KL 蒸馏、Agent / 工具调用、3FS / 容器虚拟化

▸ 学习目标 ▸ 章节路线图 ▾ 本部分小结 ▾ 自检题

▸ LEARNING OBJECTIVES

读完这部分，你将能够

讲清"先做 N 个 specialist，再用 OPD 合成一个 student"的两阶段范式，并解释这与 V3 混合 RL 的根本不同。
列出 Non-think / Think High / Think Max 三档的训练 context（8K/128K/384K）与响应格式差异。
说出 Generative Reward Model（GRM）相比 scalar RM 的两个优势。
能复述 OPD 损失 L = Σ w_i KL(π_θ ‖ π_E_i)，并解释为什么必须是 reverse KL + on-policy。
列出全词表 OPD 的四个工程支柱（FP4 集成 / Teacher Scheduling / WAL Rollout / Million-token RL）。
说出 Quick Instruction 的 6 个特殊 token 各自的角色，以及它为何能省掉一个独立的小模型。
解释 token 粒度 WAL 为什么不能"从头重生" unfinished requests，以及它如何避免 length bias。
列出 DSec 的四种执行衬底（Function / Container / microVM / fullVM）与 3FS 的协作关系。

本部分章节路线图

CH 16

专家训练 + Reasoning Effort

SFT → GRPO → GRM → 三档 thinking budget。

CH 17

Tool 接口三件套

DSML schema / Interleaved Thinking / Quick Instruction。

CH 18 · ★

OPD：多教师反向蒸馏

10+ 个领域专家 → 全词表 reverse KL → 一个统一学生。

CH 19

RL / OPD 工程基础设施

FP4 / Teacher Sched / WAL / Million-token RL —— 让 OPD 真正能跑。

CH 20

DSec 沙箱平台

四衬底 + 3FS 横向扩 → 单集群 10w+ sandbox。

如何阅读这部分

Ch18 是范式置换的高潮，Ch19 把"原理上可行"变成"工程上能跑"。如果时间紧，按这个顺序读：18.1–18.3 → 19.2 → 19.3 → 20.1。Ch16/17 是 Specialist 与交互层，Ch20 是执行层。

读完 5 章后,回来看这里

本部分小结

▾ KEY TAKEAWAYS

核心要点回顾

Specialist（Ch16）：SFT → GRPO，每个专家在三档 reasoning effort 下分别训练；GRM 用"以生成代评分"省掉海量人工标注。
交互（Ch17）：<|DSML|> 替代 JSON tool-call；Interleaved Thinking 在 tool-calling 模式跨轮保留 thinking；Quick Instruction 6 token 共享主 KV，TTFT 大幅降低。
范式（Ch18）：V3 的"混合 RL"被整体替成 OPD —— 学生 on-policy rollout，向 N 个领域 teacher 求 reverse KL 加权和；选 reverse KL 是因为 mode-seeking 适合"合并"。
工程（Ch19）：FP4 全量启用 + 不实例化 logits + 按 teacher 排序 batching + async I/O + TileLang KL kernel = 全词表 trillion 教师 KL 才跑得起；token 粒度 WAL 让 rollout 可抢占可容错且无 length bias。
沙箱（Ch20）：DSec 四衬底 + 单 SDK + 3FS 横向扩 → 10w+ sandbox 同集群；分层 EROFS / overlaybd 让冷启动毫秒化。

关键公式 / 参数速查

位置	表达 / 数值	含义
OPD 损失	`L = Σ_i w_i · KL(π_θ ‖ π_{E_i})`	reverse KL，on-policy rollout，多教师加权
三档 RL 上下文	8K / 128K / 384K	Non-think / High / Max
Quick Instruction	6 个特殊 token 共享主 KV	免独立小模型，TTFT 降
FP4 适用范围	rollout + teacher / reference forward	backward 仍 FP8
DSec 规模	10w+ sandbox / 单集群	架在 3FS 上横向扩
WAL 粒度	token-level	无 length bias

设计直觉地图

OPD 取代混合 RL 的核心动机：RL 只学到"reward 期望"，KL 蒸馏能学到"分布形状" —— 所以 reverse KL 比单纯 reward 更适合"知识合并"。
Anticipatory Routing（Ch14）与 mHC（Ch3）共享同一种思路：把"会爆炸"的路径在更新阶段隔离掉。Quick Instruction 与 KV 异构（Ch12）共享另一种思路：把"控制平面"压进"数据平面"。
Ch19 的四个工程支柱中，Teacher Scheduling 是 V4 区别于其它开源蒸馏工作的真正护城河 —— 没有这一节，trillion 教师全词表 KL 只是 PPT。

自检题

Q1. 为什么 OPD 选用 reverse KL（KL(π_θ ‖ π_E)）而不是 forward KL？

查看参考答案

reverse KL 是 mode-seeking：让学生分布去贴 teacher 分布的高概率区域。配合 on-policy rollout，学生不会被 teacher 的低概率长尾误导，更适合"把多个领域 teacher 合并到一个学生"。forward KL 反而是 mass-covering，会把学生拉成 mean of teachers，丢失各 teacher 的强项。

Q2. trillion 教师做全词表 KL，单凭"加显存"为什么不可能？V4 是怎么破的？

查看参考答案

|V| > 100k 的 logits × batch × seq 已经吃光显存。V4：teacher 权重 offload 到中央存储按需加载；不实例化 logits，只缓存 last hidden state；batch 内按 teacher index 排序让每个 prediction head 只装载一次；logits async I/O 不阻塞前向；KL 由专门的 TileLang kernel 计算避免动态分配。

Q3. 为什么 unfinished rollout 不能"从头重生"？length bias 是什么？

查看参考答案

从头重生意味着所有失败的长生成都被丢弃 → 训练数据里"成功生成"的平均长度被系统性低估 → 学生学到"短答案更可能成功"的虚假信号。token 粒度 WAL 的意义就是让长生成有机会"续上"，避免分布偏移。

Q4. Quick Instruction 把 6 个辅助任务编码成 token 而非小模型，工程收益是什么？

查看参考答案

(1) 复用主 KV cache，零额外 prefill —— TTFT 降低；(2) 消掉一个独立 inference 进程，运维与版本对齐成本归零；(3) 所有辅助任务能"自然地"利用主模型的能力，不再需要单独训练小模型。这是把"控制平面"压进"数据平面"的典型系统级优化。

预留位：OPD reverse KL 与 forward KL 的可视化对比、teacher scheduling 时间线动画、token-WAL 的"丢弃重跑 vs 续 decode" 演示、Quick Instruction 6-token 序列演示。