Tag: LLM推理
All the articles with the tag "LLM推理".
-
【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache
深入浅出地讲解 Transformer 中的 KV Cache 原理:从 prefill 前向传播到 decode 阶段的缓存复用,图解自回归语言模型如何高效生成 tokens。
-
【转载】推理的下一级:为什么你的单节点 vLLM 需要 Prefill-Decode 分离
AMD 与 Embedded LLM 联合展示:在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离,Goodput 提升 2.5 倍,消除 ITL 尖峰。
-
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载
vLLM 团队与 Mooncake 合作,通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍,在 60 块 GB200 GPU 上近线性扩展。