Tag: kv-cache
All the articles with the tag "kv-cache".
-
llm-d KV Cache 感知与流量编排技术报告
深入解读 llm-d 的 KV cache 感知机制:从近似 prefix index 到精确 KVEvents,从聚合 serving 到 P/D disaggregation,理解 EPP 如何把 prompt prefix、KV cache index、endpoint 负载、latency prediction 和 offloading tier 合并成请求级路由决策。
-
【转载】KV Cache 的五个时代
从 2017 年 Transformer 诞生到 2025 年的分布式统一内存池,一文梳理 KV Cache 在 LLM 推理引擎中的演进历程。原文来自 Modular 官方博客,作者 Brian Zhang。