Tag: 技术
All the articles with the tag "技术".
-
Mooncake TE 阅读手记-07-RDMA 寻址深度解析
RDMA rkey+addr 缺一不可的原理、target_offset 的真实含义(远端虚拟地址)、cpu:0 的 NUMA 拓扑作用
-
Mooncake TE 阅读手记-06-Segment 与元数据发现
Segment 概念深入、openSegment 底层流程(从 etcd 拉取→缓存分配)、registerLocalMemory 的完整链路
-
Mooncake TE 阅读手记-05-最小 C++ 示例全解
端到端可编译运行的 Mooncake Transfer Engine 最小示例,逐行解读 target 和 initiator 角色的完整代码流程
-
Mooncake TE 阅读手记-04-Mooncake Store 分层 KV 存储
基于 Transfer Engine 的分布式 KV Cache 对象存储:初始化/注册/挂载/传输四阶段、SSD 三层存储、远端 SSD 读的 TE 配合
-
Mooncake TE 阅读手记-03-TENT 与经典 TE 架构演进
Transfer ENgine nexT(v2 重构版)与经典 TE 在配置、分层、容错、并发、抽象、可观测性六个维度的全面对比
-
Mooncake TE 阅读手记-02-Buddy Allocator 与两层池化
TransferEnginePy 的 Buddy Allocator 与 Store 的 ClientBufferAllocator 两层独立内存池设计
-
Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象
Transfer Engine 最核心的三层数据抽象:Buffer(已注册内存块)、Segment(可发现数据空间)、Slice(传输最小粒度),严格的嵌套关系
-
高性能线程模型梳理
从数据传输和网络框架的角度,梳理常见高性能线程模型的职责划分与适用场景
-
tokenspeed:用眼睛感受 LLM 的 token 生成速度
一个让你用眼睛感受 token 生成速度的小工具,从 5 tok/s 到 800 tok/s,按数字键就能切换
-
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质
从 FFN 为什么不需要缓存这一问题出发,串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。