摘要与全景 — DeepSeek-V4 架构深度剖析

OVERVIEW · 章节零

摘要与架构全景

在百万 token 上下文成为前置条件之后，整张架构表都得重画。这一章把 V4 的全部主线一次说清。

DeepSeek-V4 是 DeepSeek 系列的下一代 MoE 模型，预览版本同时发布 V4-Pro（1.6T / 49B 激活）与 V4-Flash（284B / 13B 激活），二者均原生支持 1M tokens 上下文。它的目标只有一个： 让百万级长上下文从奢侈品变成日用品。

要做到这一点，V4 在三条战线同时下手 —— 注意力（CSA + HCA 混合）、 残差通路（mHC，流形约束的 Hyper-Connection）、 优化器（Muon + Hybrid Newton–Schulz），外加 FP4 量化感知训练、批不变确定性内核、多教师全词表 OPD 蒸馏 等一整套基础设施。

报告级数字 · 一眼看穿

1M token 场景下，V4-Pro 仅用 V3.2 的 27% 单 token FLOPs 与 10% KV cache。
V4-Flash 进一步压到 10% FLOPs / 7% KV，相对 BF16-GQA8 baseline 更是降到约 2%。
V4-Pro-Max 在 SimpleQA-Verified 上比同档开源模型高 20+ 个百分点，逼近 Gemini-3.1-Pro。
Putnam-2025 形式化推理，DeepSeek-V4 拿下 120/120，证明完美。

整体架构示意

DeepSeek-V4 整体架构：Embedding → CSA/HCA + Pre/Post-Block Mixing + Residual Mixing → DeepSeekMoE → MTP → Prediction Head — **图 0-1 · DeepSeek-V4 整体架构（Transformer Block × $L$）。** 底部 Embedding 上来后，每个 block 内部分两段：先走 **CSA / HCA** 混合注意力（Ch04 / Ch05），输出经 *Pre-Block / Post-Block Mixing* 与 *Residual Mixing* 三个 mapping（即 Ch03 mHC 的三套 $\tilde A / \tilde B / \tilde C$）回到主 highway；再走第二段 **DeepSeekMoE**（Ch07），同样经过一组 mixing 才合流。block 堆叠 $L$ 次后，顶部 Prediction Head 出 LM Loss，旁路 **MTP Modules** 出 MTP Loss。这张图就是 Part 1 各章的"目录索引"——三套 Mixing 是 mHC、CSA/HCA 是新注意力、DeepSeekMoE 从 V3 继承。来源：DeepSeek-V4 技术报告 Figure 2。

局限与未来方向

预览版不是终点。论文 Conclusion 给出了 DeepSeek 团队自己写下的"To-do"，正好对应 V4 当前的几条短板：

架构复杂度：为了控制风险保留了不少"已验证 trick"，未来要做减法、追求 elegant；
稳定性理论：Anticipatory Routing 与 SwiGLU Clamping 的内部机制仍是黑箱，需要深入研究；
更稀疏的 embedding：CCSE 等方向（Cheng 2026）的引入；
低延迟长上下文：让 1M 真正走入交互式部署，而不只是离线批处理；
长程多轮 agent：继续打磨 long-horizon、多 round tool-use；
多模态：明确写在 to-do 中，下一代会带；
更好的数据合成与策展：持续投入。

一句话定位

V4 是一份"为百万 token 而设计"的全栈预览版：架构改了、内核改了、训练流程改了、推理流程改了、KV 体系改了 —— 而不是某个单点 trick 的胜利。它给开源世界的礼物是：把长上下文从"成本异常项"变成"日常默认项"。