Tag: kubernetes
All the articles with the tag "kubernetes".
-
llm-d KV Cache 感知与流量编排技术报告
深入解读 llm-d 的 KV cache 感知机制:从近似 prefix index 到精确 KVEvents,从聚合 serving 到 P/D disaggregation,理解 EPP 如何把 prompt prefix、KV cache index、endpoint 负载、latency prediction 和 offloading tier 合并成请求级路由决策。