Tag: LLM推理

All the articles with the tag "LLM推理".

【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache

21 May, 2026

深入浅出地讲解 Transformer 中的 KV Cache 原理：从 prefill 前向传播到 decode 阶段的缓存复用，图解自回归语言模型如何高效生成 tokens。
【转载】推理的下一级：为什么你的单节点 vLLM 需要 Prefill-Decode 分离

21 May, 2026

AMD 与 Embedded LLM 联合展示：在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离，Goodput 提升 2.5 倍，消除 ITL 尖峰。
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载

20 May, 2026

vLLM 团队与 Mooncake 合作，通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍，在 60 块 GB200 GPU 上近线性扩展。

【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache