Skip to content
团子云技术 Lite 1.048596
Go back

深入浅出 Softmax:从大语言模型、图像分类到推荐系统的“万能概率转换器”

无论你是正在折腾 ChatGPT API 的开发者,还是刚跑通第一个图像分类模型的机器学习新手,亦或是好奇抖音算法机制的技术爱好者,你都会在神经网络的最末端遇到同一个名字——Softmax

简单来说,Softmax 是一个极其优雅的数学函数,它扮演着多分类任务中“单选题概率转换器”的角色。本文将梳理我们在构建和应用各类 AI 模型时,为什么离不开 Softmax,以及它在不同领域的具体玩法。


一、 灵魂拷问:为什么不直接“求和算比例”?

很多人在初学机器学习时都有一个非常直觉的疑问:既然模型最后要输出各个类别的概率,为什么不直接把所有原始得分加起来当分母,单个得分当分子来计算比例呢?

真实模型中,最后一层网络输出的原始打分被称为 Logits。放弃直接求和,而选择 Softmax,主要基于以下三大核心原因:


二、 Softmax 在大语言模型 (LLM) 中的艺术:温度控制

在大语言模型(如 GPT-4 或 LLaMA)中,Softmax 位于网络的前向传播的最末端。它的任务是面对词汇表中的数万个 Token,决定下一个输出词是谁。

在这里,Softmax 引入了一个极其关键的工程参数:温度(Temperature,简称 TT

P(xi)=exi/Tjexj/TP(x_i) = \frac{e^{x_i / T}}{\sum_{j} e^{x_j / T}}

技术避坑指南: 调整 TT 完全发生在模型前向传播结束后的采样阶段。因此,无论你怎么调温度,都绝对不会影响 Transformer 内部自注意力机制的 KV Cache 命中率。缓存的是历史状态,而温度改变的只是最终的概率分布形状。


三、 跨界碰撞:图像分类 vs. 推荐系统

虽然 Softmax 的数学本质不变,但在不同的业务场景下,它的应用形态却大有门道。

1. 图像分类:经典的固定多分类

在图像分类(如 ResNet)中,Softmax 面对的是固定且较小的候选集(例如 ImageNet 的 1000 个分类)。

2. 推荐系统:海量候选集的工程挑战

在淘宝或短视频推荐系统的召回与粗排阶段(经典双塔模型),Softmax 面临着地狱级的挑战。


四、 核心对比总结

为了更直观地理解,我们可以用一张表总结 Softmax 在三大核心领域的异同:

应用领域任务本质候选集大小 (Softmax 分母)Logits 的物理意义
图像分类\rightarrow 固定类别标签数十至数千 (固定类别)图像特征与各类别特征的相似度得分
大语言模型上文 \rightarrow 下一个 Token几万至十几万 (固定词表)隐藏层状态经 LM Head 映射后的打分
推荐系统用户 \rightarrow 具体物品千万至亿级 (需负采样逼近)用户向量与物品向量的内积得分

从识别一张猫的图片,到生成一行优美的诗句,再到猜中你今晚想看的视频,在这背后,都是 Softmax 在默默地将冰冷的神经元电信号,转化为人类世界中确定的概率与选择。


Share this post on:

Previous Post
深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进
Next Post
别把你的学习外包给 AI