Tag: LLM

All the articles with the tag "LLM".

为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质

18 May, 2026

从 FFN 为什么不需要缓存这一问题出发，串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
从 Softmax 梯度消失到 KV Cache 的深度解密：拆解 Transformer 的时空内幕

18 May, 2026

从 Softmax 导数陷阱出发，推导自注意力的物理本质，并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
Qwen3.5 推理全流程解析：基于 vLLM 源码的混合架构逐层拆解

14 May, 2026

基于 vLLM 源码分析 Qwen3.5 的 Hybrid 架构：Full Attention 与 GatedDeltaNet Linear Attention 交替混合、Dense MLP 与 Sparse MoE 双 FFN 变体，从输入嵌入到 logits 输出的完整推理计算流程。
大模型的物理定律：Scaling Laws 从何而来，又往哪去

14 May, 2026

拆解 Scaling Laws 的核心原理、Kaplan 与 Chinchilla 两条路线之争，以及 MoE 架构如何在缩放定律的图表上开出了作弊点。
Qwen3 推理全流程解析：基于 vLLM 源码的逐层拆解

14 May, 2026

基于 vLLM v0.20.1 中 qwen3.py 和 qwen2.py 的源码实现，从 Embedding、QK-Norm、RoPE、SwiGLU 到 LM Head，逐层拆解 Qwen3 的端到端推理计算流程，并对比与 Qwen2 的关键架构差异。
llm-d KV Cache 感知与流量编排技术报告

6 May, 2026

深入解读 llm-d 的 KV cache 感知机制：从近似 prefix index 到精确 KVEvents，从聚合 serving 到 P/D disaggregation，理解 EPP 如何把 prompt prefix、KV cache index、endpoint 负载、latency prediction 和 offloading tier 合并成请求级路由决策。
【转载】KV Cache 的五个时代

6 May, 2026

从 2017 年 Transformer 诞生到 2025 年的分布式统一内存池，一文梳理 KV Cache 在 LLM 推理引擎中的演进历程。原文来自 Modular 官方博客，作者 Brian Zhang。
OpenAI 的地精危机：GPT 为什么开始满嘴哥布林

30 Apr, 2026

GPT-5.1 开始频繁提到 goblin 和 gremlin，一路蔓延到 GPT-5.5。OpenAI 花了几个月才查清楚原因——竟然跟一个叫 Nerdy 的人格设定有关。

Tag: LLM

为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质

从 Softmax 梯度消失到 KV Cache 的深度解密：拆解 Transformer 的时空内幕

Qwen3.5 推理全流程解析：基于 vLLM 源码的混合架构逐层拆解

大模型的物理定律：Scaling Laws 从何而来，又往哪去

Qwen3 推理全流程解析：基于 vLLM 源码的逐层拆解

llm-d KV Cache 感知与流量编排技术报告

【转载】KV Cache 的五个时代

OpenAI 的地精危机：GPT 为什么开始满嘴哥布林