Tag: LLM
All the articles with the tag "LLM".
-
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质
从 FFN 为什么不需要缓存这一问题出发,串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
-
从 Softmax 梯度消失到 KV Cache 的深度解密:拆解 Transformer 的时空内幕
从 Softmax 导数陷阱出发,推导自注意力的物理本质,并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
-
Qwen3.5 推理全流程解析:基于 vLLM 源码的混合架构逐层拆解
基于 vLLM 源码分析 Qwen3.5 的 Hybrid 架构:Full Attention 与 GatedDeltaNet Linear Attention 交替混合、Dense MLP 与 Sparse MoE 双 FFN 变体,从输入嵌入到 logits 输出的完整推理计算流程。
-
大模型的物理定律:Scaling Laws 从何而来,又往哪去
拆解 Scaling Laws 的核心原理、Kaplan 与 Chinchilla 两条路线之争,以及 MoE 架构如何在缩放定律的图表上开出了作弊点。
-
Qwen3 推理全流程解析:基于 vLLM 源码的逐层拆解
基于 vLLM v0.20.1 中 qwen3.py 和 qwen2.py 的源码实现,从 Embedding、QK-Norm、RoPE、SwiGLU 到 LM Head,逐层拆解 Qwen3 的端到端推理计算流程,并对比与 Qwen2 的关键架构差异。
-
llm-d KV Cache 感知与流量编排技术报告
深入解读 llm-d 的 KV cache 感知机制:从近似 prefix index 到精确 KVEvents,从聚合 serving 到 P/D disaggregation,理解 EPP 如何把 prompt prefix、KV cache index、endpoint 负载、latency prediction 和 offloading tier 合并成请求级路由决策。
-
【转载】KV Cache 的五个时代
从 2017 年 Transformer 诞生到 2025 年的分布式统一内存池,一文梳理 KV Cache 在 LLM 推理引擎中的演进历程。原文来自 Modular 官方博客,作者 Brian Zhang。
-
OpenAI 的地精危机:GPT 为什么开始满嘴哥布林
GPT-5.1 开始频繁提到 goblin 和 gremlin,一路蔓延到 GPT-5.5。OpenAI 花了几个月才查清楚原因——竟然跟一个叫 Nerdy 的人格设定有关。