第一部分 · 架构

PART 1 · 6 章 · 架构

第一部分 · 架构

V4 的"形" —— 注意力、残差、优化器三条主线。先看清问题（百万 Token 之困），再逐个看清 mHC / CSA / HCA / Muon 这四把刀是怎么递进出来的。

章节数6 章（Ch1–Ch6） 预计阅读60–80 分钟难度★★★★☆ 前置Transformer 基础、残差连接、AdamW / Muon 概念、softmax / softmax-free 注意力

▸ 学习目标 ▸ 章节路线图 ▾ 本部分小结 ▾ 自检题

▸ LEARNING OBJECTIVES

读完这部分，你将能够

用一句话说清"为什么 1M 上下文必须改架构"，并说出 KV cache 与单 token FLOPs 的两条天花板。
区分 V3 → V4 在 MoE 路由打分、负载均衡、MTP 上的具体改动，并解释每一处改动想解决什么。
解释 mHC 把残差矩阵约束在 Birkhoff 多面体上的几何意义，说出谱范数 ≤ 1 与堆叠稳定性的因果关系。
画出 CSA 的"压缩 → 索引 → top-k → MQA"四段流水线，并指出 Lightning Indexer 为什么用 ReLU 不用 softmax。
说出 HCA 与 CSA 的"近视/远视"互补关系，理解为什么二者要交替穿插而不是择一。
背出 Muon 的 Hybrid NS 两段式系数，解释"前 8 步 + 后 2 步"为什么是收敛与稳定的折中。
面对一个新的"长序列效率"问题，能判断：先压、还是先稀疏、还是先换优化器。

本部分章节路线图

CH 01

百万 Token 之困

O(n²) 是怎么把推理时代逼到墙角的。三条改造主线浮出水面。

CH 02

从 V3 继承的两件法宝

DeepSeekMoE 与 MTP —— 哪些保留、哪些微调。

CH 03 · ★

mHC：流形约束的 Hyper-Connection

Birkhoff 多面体 + Sinkhorn-Knopp，把残差锁进非膨胀流形。

CH 04 · ★

CSA：压缩稀疏注意力

Token-level 压缩 + Lightning Indexer + top-k + Shared-KV MQA。

CH 05

HCA：重压缩注意力

m'=128 的极致压缩。和 CSA 互补穿插。

CH 06

Muon 优化器

Hybrid Newton–Schulz 把更新矩阵正交化。

如何阅读这部分

按顺序读最容易：Ch1 给问题，Ch2 给基线，Ch3–6 给四把刀。如果只想看明星章节，Ch3 (mHC) 与 Ch4 (CSA) 是必读 —— V4 一切下游优化（FP4、确定性 kernel、长上下文 CP）都是为这两件事服务的。

读完 6 章后,回来看这里

本部分小结

▾ KEY TAKEAWAYS

核心要点回顾

问题（Ch1）：1M 上下文下 vanilla attention 的 O(n²) 与 KV cache 同时爆炸 ⇒ 必须从架构层动手。
继承（Ch2）：DeepSeekMoE 与 MTP 保留，路由打分换成 Sqrt(Softplus)、加序列级 balance、首层换 Hash-MoE。
残差（Ch3 · mHC）：把 B_l 投影到 Birkhoff 多面体，谱范数 ≤ 1 ⇒ 深堆叠数值稳定，无需改 LayerNorm。
近视刀（Ch4 · CSA）：m=4 压缩 + Lightning Indexer + top-k=1024 ⇒ query 只为关心的块付计算。
远视刀（Ch5 · HCA）：m'=128 极致压缩，dense 不稀疏，与 CSA 交替穿插提供全局粗概览。
优化器（Ch6 · Muon）：Hybrid Newton–Schulz 两段式 10 步，把更新矩阵正交化到 UV^T。

关键公式速查

位置	公式 / 约束	含义
mHC 残差	`X_{l+1} = B_l X_l + C_l F(A_l X_l), B_l ∈ Birkhoff`	谱范数 ≤ 1，能量永不放大
CSA 索引	`I_{t,s} = Σ_h w · ReLU(q · K^IComp)`	用 ReLU 避免长序列 softmax 数值塌陷
HCA 压缩	`C^Comp_i = Σ_j Softmax(Z+B) ⊙ C_j, m'=128`	不做稀疏，dense 跑得起
Muon NS 迭代	`M_k = a M + b MM^T M + c (MM^T)² M`	前 8 步 (3.4445,-4.775,2.0315) + 后 2 步 (2,-1.5,0.5)

设计直觉地图

三条主线之间不是孤立的：

mHC 让"更深的网"敢叠 ⇒ 给 CSA / HCA 提供"放进去也不炸"的载体。
CSA + HCA 让"更长的序列"敢算 ⇒ 给 Muon 提供"一次梯度值得正交化"的高维更新。
Muon 让"更猛的更新"敢用 ⇒ 给 mHC 静态偏置稳定的训练信号。

自检题

Q1. 为什么 mHC 选择把 B_l 约束到 Birkhoff 多面体而不是改 LayerNorm？

查看参考答案

LayerNorm 是事后归一化，治不了"残差路径上能量被反复放大"的根因。Birkhoff 多面体保证 ‖B_l‖₂ ≤ 1 且乘法闭合，从源头让深堆叠不发散，60+ 层也能稳定训练。

Q2. CSA 的 Lightning Indexer 为什么用 ReLU 而不是 softmax 来打分？

查看参考答案

1M 序列上做 softmax 会导致大量小概率被指数压平、数值塌陷，且无法快速 top-k。ReLU 直接保留正得分，零得分天然剪枝，配合 top-k=1024 既快又稳。

Q3. 给定 V4-Pro 配置（m=4, m'=128, k=1024, n=1M），CSA 和 HCA 各自要看多少个压缩 token？

查看参考答案

CSA：1M / 4 = 256k 个压缩 token，但每个 query 只看 top-1024。
HCA：1M / 128 = 8k 个压缩 token，dense 全看。
所以 CSA 是"细粒度选 1024"，HCA 是"粗粒度看全 8k"。

Q4. Muon 的 Hybrid NS 为什么要分两段、不直接用同一组系数 10 步？

查看参考答案

(3.4445, -4.775, 2.0315) 在奇异值远离 1 时收敛极快，但接近 1 时会震荡；(2, -1.5, 0.5) 在 1 附近平稳但远处慢。两段式 = 先粗收敛 + 后精钉，10 步内得到接近正交的 UV^T。

预留位：mHC 谱范数可视化、CSA top-k 滑块、Muon NS 迭代步进动画。读到具体位置时再确定要哪类交互。