Archives
All the articles I've archived.
-
Mooncake TE 阅读手记-17-元数据管理
集中式与去中心化两种模式:etcd/Redis/HTTP 存储后端、P2P Handshake 模式、Segment 注册的完整生命周期
-
Mooncake TE 阅读手记-16-路径选择与 Peer NIC Path
两级独立决策:本地侧 selectDevice + 远端侧 selectDevice,汇聚为 Peer NIC Path,拓扑亲和策略
-
Mooncake TE 阅读手记-15-RDMA QP/CQ 与操作模式
QP 与 CQ 的关系、Send/Recv vs Write/Read 选择、Mooncake 实际使用的操作模式与 TENT 通知通道
-
Mooncake TE 阅读手记-14-RDMA 内存注册与 lkey/rkey
从 registerLocalMemory 出发,追踪 ibv_reg_mr 到 RDMA 数据传输的全链路,澄清 lkey/rkey/MR 三元组
-
Mooncake TE 阅读手记-13-高性能编程线程模型
7 种高性能线程模型全景对比:RTC、Pipeline、Thread-per-Core、Submit-then-Poll、Event-Driven、Zero-Copy DMA、Adaptive Polling 在 Mooncake 中的体现
-
Mooncake TE 阅读手记-12-Transport 核心概念与线程模型
TransferRequest/Batch/Task/Slice 四层调度结构、MultiTransport 路由、RDMA 和 TCP Transport 的线程模型对比
-
Mooncake TE 阅读手记-11-TE 接口设计
为什么 TE 不直接用 gRPC:绕开序列化开销,暴露数据面三原语
-
Mooncake TE 阅读手记-10-QP Depth 与 Slice 处理
两级反压 + 指针追踪:Slice 切分、WR 提交、QP Depth 控制、CQ 轮询,高吞吐 KV Cache 传输的调度核心
-
Mooncake TE 阅读手记-09-错误处理策略
分层异步错误模型:错误码体系、Slice 级别自动重试、Batch/Task 分层、调用方轮询决策
-
Mooncake TE 阅读手记-08-握手协议与 QP 状态机
深入 RDMA 控制面:HandShakeDesc 字段定义、LID/GID/QP 号的来源与分发、RESET→INIT→RTR→RTS 四步状态转换
-
Mooncake TE 阅读手记-07-RDMA 寻址深度解析
RDMA rkey+addr 缺一不可的原理、target_offset 的真实含义(远端虚拟地址)、cpu:0 的 NUMA 拓扑作用
-
Mooncake TE 阅读手记-06-Segment 与元数据发现
Segment 概念深入、openSegment 底层流程(从 etcd 拉取→缓存分配)、registerLocalMemory 的完整链路
-
Mooncake TE 阅读手记-05-最小 C++ 示例全解
端到端可编译运行的 Mooncake Transfer Engine 最小示例,逐行解读 target 和 initiator 角色的完整代码流程
-
Mooncake TE 阅读手记-04-Mooncake Store 分层 KV 存储
基于 Transfer Engine 的分布式 KV Cache 对象存储:初始化/注册/挂载/传输四阶段、SSD 三层存储、远端 SSD 读的 TE 配合
-
Mooncake TE 阅读手记-03-TENT 与经典 TE 架构演进
Transfer ENgine nexT(v2 重构版)与经典 TE 在配置、分层、容错、并发、抽象、可观测性六个维度的全面对比
-
Mooncake TE 阅读手记-02-Buddy Allocator 与两层池化
TransferEnginePy 的 Buddy Allocator 与 Store 的 ClientBufferAllocator 两层独立内存池设计
-
Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象
Transfer Engine 最核心的三层数据抽象:Buffer(已注册内存块)、Segment(可发现数据空间)、Slice(传输最小粒度),严格的嵌套关系
-
高性能线程模型梳理
从数据传输和网络框架的角度,梳理常见高性能线程模型的职责划分与适用场景
-
【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache
深入浅出地讲解 Transformer 中的 KV Cache 原理:从 prefill 前向传播到 decode 阶段的缓存复用,图解自回归语言模型如何高效生成 tokens。
-
【转载】推理的下一级:为什么你的单节点 vLLM 需要 Prefill-Decode 分离
AMD 与 Embedded LLM 联合展示:在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离,Goodput 提升 2.5 倍,消除 ITL 尖峰。
-
tokenspeed:用眼睛感受 LLM 的 token 生成速度
一个让你用眼睛感受 token 生成速度的小工具,从 5 tok/s 到 800 tok/s,按数字键就能切换
-
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载
vLLM 团队与 Mooncake 合作,通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍,在 60 块 GB200 GPU 上近线性扩展。
-
【转载】00年互联网泡沫,半导体都发生了什么?悲剧重演?历史已给出答案!
美投讲美股对2000年互联网泡沫期间半导体行业兴衰的深度复盘,并与当下AI半导体行情进行全面对比。
-
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质
从 FFN 为什么不需要缓存这一问题出发,串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
-
从 Softmax 梯度消失到 KV Cache 的深度解密:拆解 Transformer 的时空内幕
从 Softmax 导数陷阱出发,推导自注意力的物理本质,并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
-
深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进
深度拆解 Transformer 解码器中最核心的四个数据阀门:Input RMSNorm、残差连接、Final Norm 以及 Softmax 层,探究它们如何协同工作治理深度网络中的数值洪流。
-
深入浅出 Softmax:从大语言模型、图像分类到推荐系统的“万能概率转换器”
梳理 Softmax 在 LLM、图像分类和推荐系统三大核心领域的应用逻辑与工程实践差异。
-
别把你的学习外包给 AI
Addy Osmani 关于 AI 时代工程师学习能力的深度反思。
-
Qwen3.5 推理全流程解析:基于 vLLM 源码的混合架构逐层拆解
基于 vLLM 源码分析 Qwen3.5 的 Hybrid 架构:Full Attention 与 GatedDeltaNet Linear Attention 交替混合、Dense MLP 与 Sparse MoE 双 FFN 变体,从输入嵌入到 logits 输出的完整推理计算流程。
-
大模型的物理定律:Scaling Laws 从何而来,又往哪去
拆解 Scaling Laws 的核心原理、Kaplan 与 Chinchilla 两条路线之争,以及 MoE 架构如何在缩放定律的图表上开出了作弊点。
-
Qwen3 推理全流程解析:基于 vLLM 源码的逐层拆解
基于 vLLM v0.20.1 中 qwen3.py 和 qwen2.py 的源码实现,从 Embedding、QK-Norm、RoPE、SwiGLU 到 LM Head,逐层拆解 Qwen3 的端到端推理计算流程,并对比与 Qwen2 的关键架构差异。
-
Modular 这家公司到底在做什么:一个 AI 推理基础设施的调研
Modular 由 LLVM 创始人 Chris Lattner 创立,主打统一的 AI 推理基础设施。本文调研其产品逻辑、技术路线、商业模式和当前处境。
-
llm-d KV Cache 感知与流量编排技术报告
深入解读 llm-d 的 KV cache 感知机制:从近似 prefix index 到精确 KVEvents,从聚合 serving 到 P/D disaggregation,理解 EPP 如何把 prompt prefix、KV cache index、endpoint 负载、latency prediction 和 offloading tier 合并成请求级路由决策。
-
【转载】KV Cache 的五个时代
从 2017 年 Transformer 诞生到 2025 年的分布式统一内存池,一文梳理 KV Cache 在 LLM 推理引擎中的演进历程。原文来自 Modular 官方博客,作者 Brian Zhang。
-
OpenAI 的地精危机:GPT 为什么开始满嘴哥布林
GPT-5.1 开始频繁提到 goblin 和 gremlin,一路蔓延到 GPT-5.5。OpenAI 花了几个月才查清楚原因——竟然跟一个叫 Nerdy 的人格设定有关。
-
宏观金融危机环境下的资产保值机制与跨周期动态表现深度剖析
基于历史百年数据,从1929大萧条到2020疫情,系统分析各类核心资产在不同危机类型中的保值逻辑与表现。
-
brpc client socket 异常路径拆解
整理 brpc client 在常见异常场景下的 socket 状态变化、错误码来源和日志表现。重点拆解上游 coredump 时 client 侧从 RPC timeout 到 E112 Not connected 的完整链路。
-
C++ 服务端 Coredump 假死之谜:TCP 黑洞现象剖析与 brpc 最佳实践
生产环境中大内存 C++ 服务 Coredump 期间的"网络黑洞"现象——TCP 连接能建却不能响应,以及基于 brpc 的客户端治理实践。
-
你们好,我是团团虾
Lite 站来了一个新住客。不灌鸡汤,不装专家,一个在幕后帮博主干活的 AI 助手,正式出来打个招呼。
-
老博客的现代化手术:和 AI 结对快速翻新十年 wordpress 博客
面对 2015 年的老博客,是推翻重写还是爆改布局?借助最新 AI 模型结对,笔者仅用几个小时,完成了从前端排版到后端性能的全面现代化翻新。记一次时间性价比极佳的工程实践。
-
先出 diff 再审稿:DHH 谈 Agent-First、Rails 与「程序员黄金时代」要不要收摊
DHH 谈从排斥补全到 Agent-First、Rails 与 CLI、资深工程师获益与「黄金时代」——转载 InfoQ 微信编译稿。
-
如果 AI 替我们做完所有的工作:保罗·拉法格与《懒惰权》
在这个被 AI 浪潮裹挟的时代,我们比以往任何时候都更焦虑。150 年前,马克思的女婿保罗·拉法格曾写下《懒惰权》,呼吁人类从繁重劳动中解放。站在 AI 时代的门口,我们是否真的准备好迎接这种“无所事事”的自由?
-
Taleb 书单推荐: 齿轮、非对称风险与重构的坐标系
从绝望不自洽的夕阳茧房,再到真实世界的非对称风险。借塔勒布的“不确定性”哲学,我希望能在 26 年重构内心的坐标系。
-
车,Jazz 和五星上将
在汽车后排的狭小空间里,重新审视作为物理边界、生命周期承载物以及内心秩序守护者的"车"。
-
先有鸡还是先有蛋:从编译器到顶级机床,聊聊"叉车叉叉车"
从软件世界的编译器自举(Bootstrapping)到物理世界的工业母机与三板研磨法,盘点那些"用自己构建自己"的工程系统。
-
用系统架构思维重构吉他效果器链路
将吉他效果器链视为单向数据处理流(Pipeline)——吉他是输入源,效果器是中间件,音箱是渲染层。基于 Klon Centaur 和 ProCo RAT 的重构实践笔记。
-
我们的技术经验正在被"做空":写在 OpenClaw 刷屏后的 FOMO 时刻
最近 OpenClaw 和 Claude Code 刷屏,技术圈弥漫着一种"技术资产"被做空的 FOMO 情绪。我们需要这根鞭子,也需要更深层的工程直觉。
-
写惯了 Go 的人,可能很难理解 TypeScript 的"类型体操"有多离谱
比起 Go 语言死死固定刻在石头上的类型,TypeScript 将类型当成了一门可以在编译期疯狂变魔术的独立语言。
-
什么是 KTLO (Keep The Lights On)?
在软件工程和团队效率统计中,KTLO 常被翻译为"维持日常运转",指的是为了保持现有系统正常运行的日常维护性工作。
-
Hello World: 另一条世界线的观测站初始化完毕
团子云技术 Lite 正式上线。为什么建立这个子站,以及未来这里会涌现怎样的「碎片」。