Skip to content
团子云技术 Lite 1.048596
Go back

深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进

深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进

在现代大语言模型(如 Qwen3、LLaMA 3、DeepSeek 等)的万亿 Token 训练与推理背后,隐藏着一套极其精妙的数值控制系统。为什么拥有上百层、数百亿参数的深度神经网络不会在计算中崩塌?为什么简单的加法和缩放能决定模型的智能?

本文将深度拆解 Transformer 解码器(Decoder)中最核心的四个数据阀门:Input RMSNorm残差连接(Residual Connection)最终层标准化(Final Norm) 以及 Softmax 层,探究它们是如何协同工作,治理深度网络中的数值”洪流”的。


一、 支路的过滤器:Input RMSNorm

在大模型的一层 Transformer 模块中,数据在进入注意力机制(Attention)或前馈网络(FFN)之前,必须先经过一道关卡——Input RMSNorm

1. 为什么需要标准化?

随着网络层数的加深,数据在层与层之间传递时,其分布会发生剧烈波动(即内部协变量偏移),这会导致梯度消失或梯度爆炸。标准化(Normalization)的核心任务,就是把这些脱缰的数据拉回到一个合理的数值范围内,确保训练的稳定性。

2. 从 LayerNorm 到 RMSNorm 的演进

在早期的 Transformer 中,经典的设计是 LayerNorm(层标准化)。它需要计算输入向量的均值(Mean)和方差(Variance):

y=xμσγ+βy = \frac{x - \mu}{\sigma} \odot \gamma + \beta

然而,研究人员发现,LayerNorm 中真正起作用的是”除以方差”的缩放操作,而”减去均值”的平移操作对模型效果的贡献微乎其微,反而拖慢了计算速度。

因此,Qwen 和 LLaMA 等现代大模型全面转向了 RMSNorm(均方根标准化)。它直接去掉了均值计算,只计算均方根(Root Mean Square):

RMSNorm(x)=x1di=1dxi2+ϵγ\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2 + \epsilon}} \odot \gamma


二、 信息的高速公路:残差连接与 Pre-Norm 架构

经过 RMSNorm 过滤后的数据进入了 Attention 或 FFN 计算,但计算完后的结果并不会直接传给下一层,而是通过一个加法操作,合并到原始的输入上。这就是残差连接(Residual Connection)

1. 残差连接的数学魔力

残差连接的公式极其简单:

Output=x+f(x)\text{Output} = x + f(x)

在反向传播更新参数时,由于加法的导数是 1,误差信号(梯度)可以毫无衰减地沿着这条”捷径”直接回传到网络的第一层。它成功解决了深层网络难以训练的痛点,拉开了千亿参数大模型的帷幕。

2. 现代大模型的 Pre-Norm 流水线

现代大模型普遍采用 Pre-Norm(前置标准化) 架构。具体到 Qwen 的一个 Transformer 层,数据的流向表现为:

xl+1=xl+Attention(RMSNorm(xl))x_{l+1} = x_l + \text{Attention}(\text{RMSNorm}(x_l))

xl+2=xl+1+FFN(RMSNorm(xl+1))x_{l+2} = x_{l+1} + \text{FFN}(\text{RMSNorm}(x_{l+1}))

我们可以把主干道上的 xx(残差流/Residual Stream)想象成一块”不断被完善的画板”:

  1. x0x_0 仅仅包含了词向量的原始特征(类似画板上的草稿)。
  2. 每经过一层: Attention 提取上下文,FFN 提取非线性特征。这些新特征通过加法追加到主干道 xx 上,不断丰富其语义。

三、 数值洪流的终极大坝:Final Normalization

既然残差连接是在主干道上不断做加法,这就引发了一个致命问题:经过几十上百层的累加后,主干道上的数值(方差)会随着层数增加而线性膨胀,变得极其巨大。

为了防止这股庞大的数值”洪流”冲垮最后的输出层,SOTA 模型引入了最终层标准化(Final Normalization)

虽然各家大模型在中间层卷出了各种花样,但在最后的这道大坝上,当前主流模型主要分为以下三大流派:

流派代表模型核心思路与做法
纯粹 RMSNormLLaMA 3, Qwen 2.5/3, DeepSeek V3, Mistral极致的工程实用主义。 在将残差流送入最终的分类器前,仅计算均方根并进行缩放,用最低的算力把膨胀的特征流拍平。
混合控制流 (RMSNorm + Soft-capping)Google Gemma 2 / Gemma 3强硬镇压极端离群值。 除了标准化,还通过非线性函数(如 tanh\tanh)配合缩放因子,将最终的 Logits 强行限制在固定范围内(如 [30,30][-30, 30]),极大地增强了复杂上下文下的数值稳定性。
传统 LayerNorm多模态大模型的视觉分支 (如 Vision Encoder)严谨的统计学归一化。 在纯文本大模型中已被淘汰,但在跨模态初期(特征空间差异极大时),仍靠完整的”减均值、除方差”来强制对齐数据分布。

四、 文本生成的门户:Softmax 与推理瓶颈的博弈

当膨胀的残差流被 Final Norm “拍平”后,大模型迎来了它的最后一步:通过一个巨大的线性映射层(LM Head)将特征转换为包含几十万个词汇得分的向量(Logits),然后交由 Softmax 处理。

1. Softmax 的基本原理

Softmax 的公式如下:

Softmax(zi)=ezij=1Kezj\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}

它通过两个动作将杂乱无章的得分转换为严格的概率分布:

如果 Final Norm 没有把数值压下来,Logits 中一旦出现极大的数字(如 1000),e1000e^{1000} 会直接导致计算机数值溢出(NaN);或者差距过大导致概率完全塌陷为 [1.0, 0.0, ...],使模型失去多样表达能力。

2. 几十万词汇的 Softmax,会成为推理的最终瓶颈吗?

随着现代大模型词表不断膨胀(从早期的 3 万飙升至如今的 15 万甚至 25 万),最后的 LM Head 矩阵乘法加上 Softmax 的全局归一化,确实带来了一笔不容小觑的开销:

  1. 高算力与高访存: 需要把特征向量与几十万维的巨大词表矩阵相乘,并遍历这几十万个数字三次(找最大值防溢出、算指数、算总和)。
  2. 延迟占比: 在整个生成阶段,这一步通常会吃掉 5% ~ 15% 的推理时间。

然而,它还算不上是目前的”最终瓶颈”。

在如今的大模型推理(Decode)阶段,真正的头号灾难是 显存带宽瓶颈(Memory Bandwidth Bound)——即每次生成一个新词,GPU 都必须把之前所有词沉淀下来的庞大记忆(KV Cache)从显存深处完整搬运到计算单元一次。

相比于自回归过程中巨量的 KV Cache 搬运开销,Softmax 这个”收费站”虽然偶有拥堵,但在工程师们祭出了 Flash-Softmax 算子融合(在高速缓存中一次性边算边更新)推测解码(Speculative Decoding) 等黑科技后,其开销已被牢牢压制在可控范围内。

结语

大模型的架构设计是一门平衡的艺术。残差连接开辟了一条宽阔的信息江河,确保梯度与语义畅通无阻;Input RMSNormFinal Norm 则像是沿途与入海口的闸门,时时刻刻将奔腾的数值约束在理性的河道之内;最终由 Softmax 凝聚成精准的概率,吐露人类的语言。正是这些底层算子的精妙配合,才支撑起了如今庞大而稳定的 AI 智能世界。


Share this post on:

Previous Post
从 Softmax 梯度消失到 KV Cache 的深度解密:拆解 Transformer 的时空内幕
Next Post
深入浅出 Softmax:从大语言模型、图像分类到推荐系统的“万能概率转换器”