DeepSeek-V4 架构深度剖析
百万 Token 时代的全栈改造:从 mHC、CSA/HCA 混合注意力,到 Muon 优化器、FP4 量化感知训练、与 On-Policy Distillation。逐章拆解 V4 技术报告。
本书是对 DeepSeek-V4 技术报告的第三方深度剖析,由社区作者 igloos 编写,非 DeepSeek-AI 官方出版物。模型权重与论文版权归 DeepSeek-AI,本书文字与可视化在 MIT License 下发布。封面 Logo 仅作引用使用。
DeepSeek-V4 Preview 释出
2026 年 4 月 24 日,DeepSeek-AI 在 Hugging Face 上同步开源了 V4-Flash(284B 总参 / 19B 激活)与 V4-Pro(1.6T 总参 / 49B 激活)的 Base 与 Instruct 权重,并发布 56 页技术报告。本次更新围绕"把百万 token 上下文做成日常默认"重写了五件套:
- 注意力:CSA(压缩 + Lightning Indexer top-k)与 HCA(m'=128 重压缩)交替穿插,1M 上下文不再 OOM;
- 残差:mHC 把 Hyper-Connection 约束到 Birkhoff 多面体,谱范数 ≤ 1;
- 预训练:32T tokens、4K → 16K → 64K → 1M 阶梯式扩长,Anticipatory Routing + SwiGLU Clamping 压住 loss spike;
- 后训练:用 OPD(多教师 reverse KL 蒸馏)整体替掉 V3 的混合 RL,配套 DSec 单集群 10w+ sandbox;
- 评测:Codeforces Elo 3206、Putnam-2025 拿下 120/120、内部 Code Agent 67% pass。
本书地图
把 56 页技术报告拆解为 20 章 + 两份附录,按"部分"组织,每个部分以学习目标开头、以小结收尾。每章独立可读,可按兴趣跳读。
mHC:把残差搬上 Birkhoff 多面体
用双随机矩阵约束 Hyper-Connection,谱范数 ≤ 1,让深度堆叠重新可控。
CSA:压缩 + 稀疏 的二重奏
先把 m 个 KV 压成一个,再用 Lightning Indexer 选 top-k。这是 V4 长上下文的命脉。
HCA:把 m'≫m 个 token 压成一格
更激进的压缩、不做稀疏选择,与 CSA 交替穿插使用。
Muon × Hybrid Newton-Schulz
10 步两段式迭代:前 8 步快收敛,后 2 步钉死奇异值。
MegaMoE:通信完全藏在计算下面
把专家切成 wave,给出 C/B ≤ 6144 FLOPs/Byte 的硬件协设建议。
OPD:从 RL 到反向 KL 蒸馏
10+ 个领域专家,全词表 logit 蒸馏到一个统一学生模型。
四大部分 + 附录
架构
百万 Token 之困、mHC、CSA/HCA、Muon —— V4 的"形"。
基础设施
MegaMoE、TileLang、批不变、FP4 QAT、训练/推理框架 —— V4 的"骨"。
预训练
32T 数据、Anticipatory Routing、SwiGLU 钳位、Base 评测 —— V4 的"基"。
后训练
Specialist + GRM + Tool 接口 + OPD + DSec —— V4 的"魂"。
评测结果
Benchmark 跑分 + 真实任务胜率,含 Codeforces Elo 3206、Putnam 120/120、Code Agent 67% pass。
参数速查
L=61、d=7168、专家 384 / 激活 6 等核心符号一表查清。