Tag: AI
All the articles with the tag "AI".
-
【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache
深入浅出地讲解 Transformer 中的 KV Cache 原理:从 prefill 前向传播到 decode 阶段的缓存复用,图解自回归语言模型如何高效生成 tokens。
-
【转载】推理的下一级:为什么你的单节点 vLLM 需要 Prefill-Decode 分离
AMD 与 Embedded LLM 联合展示:在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离,Goodput 提升 2.5 倍,消除 ITL 尖峰。
-
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载
vLLM 团队与 Mooncake 合作,通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍,在 60 块 GB200 GPU 上近线性扩展。
-
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质
从 FFN 为什么不需要缓存这一问题出发,串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
-
从 Softmax 梯度消失到 KV Cache 的深度解密:拆解 Transformer 的时空内幕
从 Softmax 导数陷阱出发,推导自注意力的物理本质,并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
-
深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进
深度拆解 Transformer 解码器中最核心的四个数据阀门:Input RMSNorm、残差连接、Final Norm 以及 Softmax 层,探究它们如何协同工作治理深度网络中的数值洪流。
-
深入浅出 Softmax:从大语言模型、图像分类到推荐系统的“万能概率转换器”
梳理 Softmax 在 LLM、图像分类和推荐系统三大核心领域的应用逻辑与工程实践差异。
-
别把你的学习外包给 AI
Addy Osmani 关于 AI 时代工程师学习能力的深度反思。
-
【转载】【美投晨报】利率风暴要来了!存储还能再涨?阿克曼押注微软!伯克希尔大变天!
美投侃新闻 2026-05-15 投资晨报:美债收益率全线突破新高,存储芯片越涨越便宜的悖论,阿克曼抄底微软,伯克希尔一季度大规模调仓。
-
【转载】【美投晨报】川普持仓大公开!亚马逊冲三万亿!半导体和软件选谁?AI芯片新王登基?
美投侃新闻 2026-05-14 投资晨报:川普Q1持仓3642笔交易揭秘,亚马逊距3万亿仅一步之遥,半导体拥挤度99.3% vs 软件22.8%,Cerebras IPO开盘翻倍市值破千亿。