第一部分 · 架构
封面/第一部分 · 架构
PART 1 · 6 章 · 架构

第一部分 · 架构

V4 的"形" —— 注意力、残差、优化器三条主线。先看清问题(百万 Token 之困),再逐个看清 mHC / CSA / HCA / Muon 这四把刀是怎么递进出来的。

章节数6 章(Ch1–Ch6) 预计阅读60–80 分钟 难度★★★★☆ 前置Transformer 基础、残差连接、AdamW / Muon 概念、softmax / softmax-free 注意力
▸ LEARNING OBJECTIVES

读完这部分,你将能够

  • 用一句话说清"为什么 1M 上下文必须改架构",并说出 KV cache 与单 token FLOPs 的两条天花板。
  • 区分 V3 → V4 在 MoE 路由打分、负载均衡、MTP 上的具体改动,并解释每一处改动想解决什么。
  • 解释 mHC 把残差矩阵约束在 Birkhoff 多面体上的几何意义,说出谱范数 ≤ 1 与堆叠稳定性的因果关系。
  • 画出 CSA 的"压缩 → 索引 → top-k → MQA"四段流水线,并指出 Lightning Indexer 为什么用 ReLU 不用 softmax。
  • 说出 HCA 与 CSA 的"近视/远视"互补关系,理解为什么二者要交替穿插而不是择一。
  • 背出 Muon 的 Hybrid NS 两段式系数,解释"前 8 步 + 后 2 步"为什么是收敛与稳定的折中。
  • 面对一个新的"长序列效率"问题,能判断:先压、还是先稀疏、还是先换优化器。

本部分章节路线图

如何阅读这部分

按顺序读最容易:Ch1 给问题,Ch2 给基线,Ch3–6 给四把刀。 如果只想看明星章节,Ch3 (mHC) 与 Ch4 (CSA) 是必读 —— V4 一切下游优化(FP4、确定性 kernel、长上下文 CP)都是为这两件事服务的。

读完 6 章后,回来看这里

本部分小结

▾ KEY TAKEAWAYS

核心要点回顾

  • 问题(Ch1):1M 上下文下 vanilla attention 的 O(n²) 与 KV cache 同时爆炸 ⇒ 必须从架构层动手。
  • 继承(Ch2):DeepSeekMoE 与 MTP 保留,路由打分换成 Sqrt(Softplus)、加序列级 balance、首层换 Hash-MoE。
  • 残差(Ch3 · mHC):把 B_l 投影到 Birkhoff 多面体,谱范数 ≤ 1 ⇒ 深堆叠数值稳定,无需改 LayerNorm。
  • 近视刀(Ch4 · CSA):m=4 压缩 + Lightning Indexer + top-k=1024 ⇒ query 只为关心的块付计算。
  • 远视刀(Ch5 · HCA):m'=128 极致压缩,dense 不稀疏,与 CSA 交替穿插提供全局粗概览。
  • 优化器(Ch6 · Muon):Hybrid Newton–Schulz 两段式 10 步,把更新矩阵正交化到 UVT

关键公式速查

位置公式 / 约束含义
mHC 残差 X_{l+1} = B_l X_l + C_l F(A_l X_l),   B_l ∈ Birkhoff 谱范数 ≤ 1,能量永不放大
CSA 索引 I_{t,s} = Σ_h w · ReLU(q · K^IComp) 用 ReLU 避免长序列 softmax 数值塌陷
HCA 压缩 C^Comp_i = Σ_j Softmax(Z+B) ⊙ C_j,   m'=128 不做稀疏,dense 跑得起
Muon NS 迭代 M_k = a M + b MM^T M + c (MM^T)² M 前 8 步 (3.4445,-4.775,2.0315) + 后 2 步 (2,-1.5,0.5)

设计直觉地图

三条主线之间不是孤立的:

  • mHC 让"更深的网"敢叠 ⇒ 给 CSA / HCA 提供"放进去也不炸"的载体。
  • CSA + HCA 让"更长的序列"敢算 ⇒ 给 Muon 提供"一次梯度值得正交化"的高维更新。
  • Muon 让"更猛的更新"敢用 ⇒ 给 mHC 静态偏置稳定的训练信号。

自检题

Q1. 为什么 mHC 选择把 B_l 约束到 Birkhoff 多面体而不是改 LayerNorm?

查看参考答案

LayerNorm 是事后归一化,治不了"残差路径上能量被反复放大"的根因。Birkhoff 多面体保证 ‖B_l‖₂ ≤ 1 且乘法闭合,从源头让深堆叠不发散,60+ 层也能稳定训练。

Q2. CSA 的 Lightning Indexer 为什么用 ReLU 而不是 softmax 来打分?

查看参考答案

1M 序列上做 softmax 会导致大量小概率被指数压平、数值塌陷,且无法快速 top-k。ReLU 直接保留正得分,零得分天然剪枝,配合 top-k=1024 既快又稳。

Q3. 给定 V4-Pro 配置(m=4, m'=128, k=1024, n=1M),CSA 和 HCA 各自要看多少个压缩 token?

查看参考答案

CSA:1M / 4 = 256k 个压缩 token,但每个 query 只看 top-1024。
HCA:1M / 128 = 8k 个压缩 token,dense 全看。
所以 CSA 是"细粒度选 1024",HCA 是"粗粒度看全 8k"。

Q4. Muon 的 Hybrid NS 为什么要分两段、不直接用同一组系数 10 步?

查看参考答案

(3.4445, -4.775, 2.0315) 在奇异值远离 1 时收敛极快,但接近 1 时会震荡;(2, -1.5, 0.5) 在 1 附近平稳但远处慢。两段式 = 先粗收敛 + 后精钉,10 步内得到接近正交的 UV^T。

预留位:mHC 谱范数可视化、CSA top-k 滑块、Muon NS 迭代步进动画。读到具体位置时再确定要哪类交互。