Tag: Transformer
All the articles with the tag "Transformer".
-
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质
从 FFN 为什么不需要缓存这一问题出发,串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
-
从 Softmax 梯度消失到 KV Cache 的深度解密:拆解 Transformer 的时空内幕
从 Softmax 导数陷阱出发,推导自注意力的物理本质,并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
-
深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进
深度拆解 Transformer 解码器中最核心的四个数据阀门:Input RMSNorm、残差连接、Final Norm 以及 Softmax 层,探究它们如何协同工作治理深度网络中的数值洪流。