DeepSeek-V4 架构深度剖析
独立深度剖析 · v0.1 (Preview) · 2026-05-05

DeepSeek-V4 架构深度剖析

百万 Token 时代的全栈改造:从 mHC、CSA/HCA 混合注意力,到 Muon 优化器、FP4 量化感知训练、与 On-Policy Distillation。逐章拆解 V4 技术报告。

关于本书

本书是对 DeepSeek-V4 技术报告的第三方深度剖析,由社区作者 igloos 编写,非 DeepSeek-AI 官方出版物。模型权重与论文版权归 DeepSeek-AI,本书文字与可视化在 MIT License 下发布。封面 Logo 仅作引用使用。

1.6TV4-Pro 总参数
49BPro 激活参数
1M原生上下文
10%vs V3.2 KV Cache
27%vs V3.2 单 Token FLOPs
32T预训练 Tokens
RELEASE · 2026-04-24

DeepSeek-V4 Preview 释出

2026 年 4 月 24 日,DeepSeek-AI 在 Hugging Face 上同步开源了 V4-Flash(284B 总参 / 19B 激活)与 V4-Pro(1.6T 总参 / 49B 激活)的 Base 与 Instruct 权重,并发布 56 页技术报告。本次更新围绕"把百万 token 上下文做成日常默认"重写了五件套:

  • 注意力:CSA(压缩 + Lightning Indexer top-k)与 HCA(m'=128 重压缩)交替穿插,1M 上下文不再 OOM;
  • 残差:mHC 把 Hyper-Connection 约束到 Birkhoff 多面体,谱范数 ≤ 1;
  • 预训练:32T tokens、4K → 16K → 64K → 1M 阶梯式扩长,Anticipatory Routing + SwiGLU Clamping 压住 loss spike;
  • 后训练:用 OPD(多教师 reverse KL 蒸馏)整体替掉 V3 的混合 RL,配套 DSec 单集群 10w+ sandbox;
  • 评测:Codeforces Elo 3206、Putnam-2025 拿下 120/120、内部 Code Agent 67% pass。
HOW TO READ · 阅读地图

本书地图

把 56 页技术报告拆解为 20 章 + 两份附录,按"部分"组织,每个部分以学习目标开头、以小结收尾。每章独立可读,可按兴趣跳读。

四大部分 + 附录