Tag: Transformer

All the articles with the tag "Transformer".

为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质

18 May, 2026

从 FFN 为什么不需要缓存这一问题出发，串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
从 Softmax 梯度消失到 KV Cache 的深度解密：拆解 Transformer 的时空内幕

18 May, 2026

从 Softmax 导数陷阱出发，推导自注意力的物理本质，并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
深入大模型底层：从残差洪流到 Softmax 瓶颈的架构演进

18 May, 2026

深度拆解 Transformer 解码器中最核心的四个数据阀门：Input RMSNorm、残差连接、Final Norm 以及 Softmax 层，探究它们如何协同工作治理深度网络中的数值洪流。

为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质