独立深度剖析 · v0.1 (Preview) · 2026-05-05

DeepSeek-V4 架构深度剖析

百万 Token 时代的全栈改造：从 mHC、CSA/HCA 混合注意力，到 Muon 优化器、FP4 量化感知训练、与 On-Policy Distillation。逐章拆解 V4 技术报告。

作者：igloomatics · 仓库：igloomatics/DeepSeek-V4-book · 版本：v0.1 (Preview) · 最后修订：2026-05-05 · 许可：MIT

关于本书

本书是对 DeepSeek-V4 技术报告的第三方深度剖析，由社区作者 igloos 编写，非 DeepSeek-AI 官方出版物。模型权重与论文版权归 DeepSeek-AI，本书文字与可视化在 MIT License 下发布。封面 Logo 仅作引用使用。

1.6TV4-Pro 总参数

49BPro 激活参数

1M原生上下文

10%vs V3.2 KV Cache

27%vs V3.2 单 Token FLOPs

32T预训练 Tokens

RELEASE · 2026-04-24

DeepSeek-V4 Preview 释出

2026 年 4 月 24 日，DeepSeek-AI 在 Hugging Face 上同步开源了 V4-Flash（284B 总参 / 19B 激活）与 V4-Pro（1.6T 总参 / 49B 激活）的 Base 与 Instruct 权重，并发布 56 页技术报告。本次更新围绕"把百万 token 上下文做成日常默认"重写了五件套：

注意力：CSA（压缩 + Lightning Indexer top-k）与 HCA（m'=128 重压缩）交替穿插，1M 上下文不再 OOM；
残差：mHC 把 Hyper-Connection 约束到 Birkhoff 多面体，谱范数 ≤ 1；
预训练：32T tokens、4K → 16K → 64K → 1M 阶梯式扩长，Anticipatory Routing + SwiGLU Clamping 压住 loss spike；
后训练：用 OPD（多教师 reverse KL 蒸馏）整体替掉 V3 的混合 RL，配套 DSec 单集群 10w+ sandbox；
评测：Codeforces Elo 3206、Putnam-2025 拿下 120/120、内部 Code Agent 67% pass。

🤗 开源模型 📄 技术报告 PDF 🌐 DeepSeek 官网

开始阅读 → 直达 mHC 直达 CSA

HOW TO READ · 阅读地图

本书地图

把 56 页技术报告拆解为 20 章 + 两份附录，按"部分"组织，每个部分以学习目标开头、以小结收尾。每章独立可读，可按兴趣跳读。

★★★★★

四大部分 + 附录

PART 1 · 6 章

DeepSeek-V4 架构深度剖析

DeepSeek-V4 Preview 释出

本书地图

mHC：把残差搬上 Birkhoff 多面体

CSA：压缩 + 稀疏的二重奏

HCA：把 m'≫m 个 token 压成一格

Muon × Hybrid Newton-Schulz

MegaMoE：通信完全藏在计算下面

OPD：从 RL 到反向 KL 蒸馏

四大部分 + 附录

架构

基础设施

预训练

后训练

评测结果

参数速查

DeepSeek-V4 架构深度剖析

DeepSeek-V4 Preview 释出

本书地图

mHC：把残差搬上 Birkhoff 多面体

CSA：压缩 + 稀疏 的二重奏

HCA：把 m'≫m 个 token 压成一格

Muon × Hybrid Newton-Schulz

MegaMoE：通信完全藏在计算下面

OPD：从 RL 到反向 KL 蒸馏

四大部分 + 附录

架构

基础设施

预训练

后训练

评测结果

参数速查

CSA：压缩 + 稀疏的二重奏