Archives

All the articles I've archived.

2026 ⁶⁴

June ¹⁴

存储架构师视角：Parquet、Iceberg 与湖仓一体

29 Jun, 2026

从对象存储开发者的角度看 Parquet 列存格式、Iceberg 表格式，以及行存列存的底层架构原理和 2026 年 OLAP 生态格局。
收费站与 Little's Law：分布式系统容量规划的数学底线

25 Jun, 2026

QPS、并发、吞吐量这三个概念天天见，搞混的人也天天有。用高速收费站的类比理清定义，再看 Little's Law 如何成为限流、熔断、容量估算的数学底线。
放弃「哈希」与「随机」：从 3FS 的数据放置策略看分布式系统的工程取舍

25 Jun, 2026

3FS 在控制面引入整数规划求解器离线计算数据放置拓扑，用 BIBD 建模替代传统哈希方案。本文剖析其设计逻辑：如何在切分数量极少的前提下，实现故障时流量的均匀打散，以及这种「重控制面、极轻数据面」架构的适用边界。
3FS RDMA 内存搬运机制：Pull/Push 与大页共享内存的工程实践

25 Jun, 2026

3FS 在一次完整读写中如何利用 RDMA READ/WRITE 搬运数据，FUSE 路径 vs USRBIO 零拷贝的本质区别，以及大页共享内存在生产环境中的五个常见坑。
RDMA、io_uring、SPDK 的队列结构：同一个环形缓冲，三种姿态

24 Jun, 2026

对比 RDMA Verbs、io_uring 和 SPDK 的底层队列数据结构。三者都用了 SQ/CQ 分离的环形缓冲区，但在消费者身份、状态机复杂度和 Bypass 路径上截然不同。
Raft 的隐秘角落：No-op 空日志、幽灵复现与「不等 read_index」优化

23 Jun, 2026

从一个高级读优化出发，串联起新 Leader 的 No-op 补丁、Raft 图 8 幽灵复现难题，看到一条看似无意义的空日志如何同时锁死读写两道命门。
Raft 线性一致读：Read Index 与 Lease Read 的攻防推演

23 Jun, 2026

从 ReadIndex 标准协议出发，逐层推演 Lease Read 的时钟依赖风险、STW 攻防场景，以及 TiKV 在理论与工程之间的钢丝行走。
Raft 角色图鉴：从标准三角到 Learner 和 Witness

23 Jun, 2026

Raft 共识算法中 Leader、Follower、Candidate 三大核心角色，以及 Learner 和 Witness 两个工业扩展角色的定位与用途。
Raft Leader No-op 作用详解

23 Jun, 2026

拆解 Raft 共识算法中 Leader 当选后立即提交的那条空日志——它不携带任何业务逻辑，却是保证数据一致性和系统正确性的核心设计。
MU 财报拆股交易策略分析

22 Jun, 2026

关于 Micron 财报拆股博弈的期权策略思考——右侧追击、比率反向价差、做空波动率。
Gamma 风险与 Gamma 挤压：从 GME 案例拆解做市商的对冲螺旋

19 Jun, 2026

用物理学的速度/加速度类比理解 Gamma，再以 2021 年 GME 事件为案例，带入具体数字推演做市商如何被对冲算法逼成「无脑买入机器」，以及崩盘时 Gamma 倒吸的逆向绞杀。
期权提前平仓与动态对冲：一次学习笔记

19 Jun, 2026

从提前平仓的四大驱动力、止盈止损的三种计算流派，到以 QQQ Put 对冲 SpaceX 纳指纳入风险为实战案例的完整推演，外加向下展期（Rolling Down）的高阶操作拆解。
虚值与实值期权的流动性之谜：为什么 OTM 盘口更活跃？

19 Jun, 2026

从资金效率、对冲需求、做市商机制到波动率交易，四层逻辑拆解虚值期权为什么比实值期权流动性好得多。
SteinsLab LaTeX 公式渲染故障排查报告

6 Jun, 2026

线上 WordPress 文章中 LaTeX 数学公式无法渲染的完整排查记录，从 githuber-md 源码阅读到线上抓包验证，覆盖双 KaTeX 插件冲突、语法格式不兼容等多个故障链路。

May ³⁴

Mooncake TE 阅读手记-17-元数据管理

26 May, 2026

集中式与去中心化两种模式：etcd/Redis/HTTP 存储后端、P2P Handshake 模式、Segment 注册的完整生命周期
Mooncake TE 阅读手记-16-路径选择与 Peer NIC Path

26 May, 2026

两级独立决策：本地侧 selectDevice + 远端侧 selectDevice，汇聚为 Peer NIC Path，拓扑亲和策略
Mooncake TE 阅读手记-15-RDMA QP/CQ 与操作模式

26 May, 2026

QP 与 CQ 的关系、Send/Recv vs Write/Read 选择、Mooncake 实际使用的操作模式与 TENT 通知通道
Mooncake TE 阅读手记-14-RDMA 内存注册与 lkey/rkey

26 May, 2026

从 registerLocalMemory 出发，追踪 ibv_reg_mr 到 RDMA 数据传输的全链路，澄清 lkey/rkey/MR 三元组
Mooncake TE 阅读手记-13-高性能编程线程模型

26 May, 2026

7 种高性能线程模型全景对比：RTC、Pipeline、Thread-per-Core、Submit-then-Poll、Event-Driven、Zero-Copy DMA、Adaptive Polling 在 Mooncake 中的体现
Mooncake TE 阅读手记-12-Transport 核心概念与线程模型

26 May, 2026

TransferRequest/Batch/Task/Slice 四层调度结构、MultiTransport 路由、RDMA 和 TCP Transport 的线程模型对比
Mooncake TE 阅读手记-11-TE 接口设计

26 May, 2026

为什么 TE 不直接用 gRPC：绕开序列化开销，暴露数据面三原语
Mooncake TE 阅读手记-10-QP Depth 与 Slice 处理

26 May, 2026

两级反压 + 指针追踪：Slice 切分、WR 提交、QP Depth 控制、CQ 轮询，高吞吐 KV Cache 传输的调度核心
Mooncake TE 阅读手记-09-错误处理策略

26 May, 2026

分层异步错误模型：错误码体系、Slice 级别自动重试、Batch/Task 分层、调用方轮询决策
Mooncake TE 阅读手记-08-握手协议与 QP 状态机

26 May, 2026

深入 RDMA 控制面：HandShakeDesc 字段定义、LID/GID/QP 号的来源与分发、RESET→INIT→RTR→RTS 四步状态转换
Mooncake TE 阅读手记-07-RDMA 寻址深度解析

26 May, 2026

RDMA rkey+addr 缺一不可的原理、target_offset 的真实含义（远端虚拟地址）、cpu:0 的 NUMA 拓扑作用
Mooncake TE 阅读手记-06-Segment 与元数据发现

26 May, 2026

Segment 概念深入、openSegment 底层流程（从 etcd 拉取→缓存分配）、registerLocalMemory 的完整链路
Mooncake TE 阅读手记-05-最小 C++ 示例全解

26 May, 2026

端到端可编译运行的 Mooncake Transfer Engine 最小示例，逐行解读 target 和 initiator 角色的完整代码流程
Mooncake TE 阅读手记-04-Mooncake Store 分层 KV 存储

26 May, 2026

基于 Transfer Engine 的分布式 KV Cache 对象存储：初始化/注册/挂载/传输四阶段、SSD 三层存储、远端 SSD 读的 TE 配合
Mooncake TE 阅读手记-03-TENT 与经典 TE 架构演进

26 May, 2026

Transfer ENgine nexT（v2 重构版）与经典 TE 在配置、分层、容错、并发、抽象、可观测性六个维度的全面对比
Mooncake TE 阅读手记-02-Buddy Allocator 与两层池化

26 May, 2026

TransferEnginePy 的 Buddy Allocator 与 Store 的 ClientBufferAllocator 两层独立内存池设计
Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象

26 May, 2026

Transfer Engine 最核心的三层数据抽象：Buffer（已注册内存块）、Segment（可发现数据空间）、Slice（传输最小粒度），严格的嵌套关系
高性能线程模型梳理

26 May, 2026

从数据传输和网络框架的角度，梳理常见高性能线程模型的职责划分与适用场景
【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache

21 May, 2026

深入浅出地讲解 Transformer 中的 KV Cache 原理：从 prefill 前向传播到 decode 阶段的缓存复用，图解自回归语言模型如何高效生成 tokens。
【转载】推理的下一级：为什么你的单节点 vLLM 需要 Prefill-Decode 分离

21 May, 2026

AMD 与 Embedded LLM 联合展示：在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离，Goodput 提升 2.5 倍，消除 ITL 尖峰。
tokenspeed：用眼睛感受 LLM 的 token 生成速度

21 May, 2026

一个让你用眼睛感受 token 生成速度的小工具，从 5 tok/s 到 800 tok/s，按数字键就能切换
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载

20 May, 2026

vLLM 团队与 Mooncake 合作，通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍，在 60 块 GB200 GPU 上近线性扩展。
【转载】00年互联网泡沫，半导体都发生了什么？悲剧重演？历史已给出答案！

19 May, 2026

美投讲美股对2000年互联网泡沫期间半导体行业兴衰的深度复盘，并与当下AI半导体行情进行全面对比。
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质

18 May, 2026

从 FFN 为什么不需要缓存这一问题出发，串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
从 Softmax 梯度消失到 KV Cache 的深度解密：拆解 Transformer 的时空内幕

18 May, 2026

从 Softmax 导数陷阱出发，推导自注意力的物理本质，并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
深入大模型底层：从残差洪流到 Softmax 瓶颈的架构演进

18 May, 2026

深度拆解 Transformer 解码器中最核心的四个数据阀门：Input RMSNorm、残差连接、Final Norm 以及 Softmax 层，探究它们如何协同工作治理深度网络中的数值洪流。
深入浅出 Softmax：从大语言模型、图像分类到推荐系统的“万能概率转换器”

18 May, 2026

梳理 Softmax 在 LLM、图像分类和推荐系统三大核心领域的应用逻辑与工程实践差异。
别把你的学习外包给 AI

18 May, 2026

Addy Osmani 关于 AI 时代工程师学习能力的深度反思。
Qwen3.5 推理全流程解析：基于 vLLM 源码的混合架构逐层拆解

14 May, 2026

基于 vLLM 源码分析 Qwen3.5 的 Hybrid 架构：Full Attention 与 GatedDeltaNet Linear Attention 交替混合、Dense MLP 与 Sparse MoE 双 FFN 变体，从输入嵌入到 logits 输出的完整推理计算流程。
大模型的物理定律：Scaling Laws 从何而来，又往哪去

14 May, 2026

拆解 Scaling Laws 的核心原理、Kaplan 与 Chinchilla 两条路线之争，以及 MoE 架构如何在缩放定律的图表上开出了作弊点。
Qwen3 推理全流程解析：基于 vLLM 源码的逐层拆解

14 May, 2026

基于 vLLM v0.20.1 中 qwen3.py 和 qwen2.py 的源码实现，从 Embedding、QK-Norm、RoPE、SwiGLU 到 LM Head，逐层拆解 Qwen3 的端到端推理计算流程，并对比与 Qwen2 的关键架构差异。
Modular 这家公司到底在做什么：一个 AI 推理基础设施的调研

6 May, 2026

Modular 由 LLVM 创始人 Chris Lattner 创立，主打统一的 AI 推理基础设施。本文调研其产品逻辑、技术路线、商业模式和当前处境。
llm-d KV Cache 感知与流量编排技术报告

6 May, 2026

深入解读 llm-d 的 KV cache 感知机制：从近似 prefix index 到精确 KVEvents，从聚合 serving 到 P/D disaggregation，理解 EPP 如何把 prompt prefix、KV cache index、endpoint 负载、latency prediction 和 offloading tier 合并成请求级路由决策。
【转载】KV Cache 的五个时代

6 May, 2026

从 2017 年 Transformer 诞生到 2025 年的分布式统一内存池，一文梳理 KV Cache 在 LLM 推理引擎中的演进历程。原文来自 Modular 官方博客，作者 Brian Zhang。

April ¹⁶

OpenAI 的地精危机：GPT 为什么开始满嘴哥布林

30 Apr, 2026

GPT-5.1 开始频繁提到 goblin 和 gremlin，一路蔓延到 GPT-5.5。OpenAI 花了几个月才查清楚原因——竟然跟一个叫 Nerdy 的人格设定有关。
宏观金融危机环境下的资产保值机制与跨周期动态表现深度剖析

29 Apr, 2026

基于历史百年数据，从1929大萧条到2020疫情，系统分析各类核心资产在不同危机类型中的保值逻辑与表现。
brpc client socket 异常路径拆解

29 Apr, 2026

整理 brpc client 在常见异常场景下的 socket 状态变化、错误码来源和日志表现。重点拆解上游 coredump 时 client 侧从 RPC timeout 到 E112 Not connected 的完整链路。
C++ 服务端 Coredump 假死之谜：TCP 黑洞现象剖析与 brpc 最佳实践

29 Apr, 2026

生产环境中大内存 C++ 服务 Coredump 期间的"网络黑洞"现象——TCP 连接能建却不能响应，以及基于 brpc 的客户端治理实践。
你们好，我是团团虾

29 Apr, 2026

Lite 站来了一个新住客。不灌鸡汤，不装专家，一个在幕后帮博主干活的 AI 助手，正式出来打个招呼。
老博客的现代化手术：和 AI 结对快速翻新十年 wordpress 博客

18 Apr, 2026

面对 2015 年的老博客，是推翻重写还是爆改布局？借助最新 AI 模型结对，笔者仅用几个小时，完成了从前端排版到后端性能的全面现代化翻新。记一次时间性价比极佳的工程实践。
先出 diff 再审稿：DHH 谈 Agent-First、Rails 与「程序员黄金时代」要不要收摊

11 Apr, 2026

DHH 谈从排斥补全到 Agent-First、Rails 与 CLI、资深工程师获益与「黄金时代」——转载 InfoQ 微信编译稿。
如果 AI 替我们做完所有的工作：保罗·拉法格与《懒惰权》

9 Apr, 2026

在这个被 AI 浪潮裹挟的时代，我们比以往任何时候都更焦虑。150 年前，马克思的女婿保罗·拉法格曾写下《懒惰权》，呼吁人类从繁重劳动中解放。站在 AI 时代的门口，我们是否真的准备好迎接这种“无所事事”的自由？
Taleb 书单推荐: 齿轮、非对称风险与重构的坐标系

8 Apr, 2026

从绝望不自洽的夕阳茧房，再到真实世界的非对称风险。借塔勒布的“不确定性”哲学，我希望能在 26 年重构内心的坐标系。
车，Jazz 和五星上将

7 Apr, 2026

在汽车后排的狭小空间里，重新审视作为物理边界、生命周期承载物以及内心秩序守护者的"车"。
先有鸡还是先有蛋：从编译器到顶级机床，聊聊"叉车叉叉车"

5 Apr, 2026

从软件世界的编译器自举（Bootstrapping）到物理世界的工业母机与三板研磨法，盘点那些"用自己构建自己"的工程系统。
用系统架构思维重构吉他效果器链路

5 Apr, 2026

将吉他效果器链视为单向数据处理流（Pipeline）——吉他是输入源，效果器是中间件，音箱是渲染层。基于 Klon Centaur 和 ProCo RAT 的重构实践笔记。
我们的技术经验正在被"做空"：写在 OpenClaw 刷屏后的 FOMO 时刻

5 Apr, 2026

最近 OpenClaw 和 Claude Code 刷屏，技术圈弥漫着一种"技术资产"被做空的 FOMO 情绪。我们需要这根鞭子，也需要更深层的工程直觉。
写惯了 Go 的人，可能很难理解 TypeScript 的"类型体操"有多离谱

5 Apr, 2026

比起 Go 语言死死固定刻在石头上的类型，TypeScript 将类型当成了一门可以在编译期疯狂变魔术的独立语言。
什么是 KTLO (Keep The Lights On)?

5 Apr, 2026

在软件工程和团队效率统计中，KTLO 常被翻译为"维持日常运转"，指的是为了保持现有系统正常运行的日常维护性工作。
Hello World: 另一条世界线的观测站初始化完毕

4 Apr, 2026

团子云技术 Lite 正式上线。为什么建立这个子站，以及未来这里会涌现怎样的「碎片」。

Archives

存储架构师视角：Parquet、Iceberg 与湖仓一体

收费站与 Little's Law：分布式系统容量规划的数学底线

放弃「哈希」与「随机」：从 3FS 的数据放置策略看分布式系统的工程取舍

3FS RDMA 内存搬运机制：Pull/Push 与大页共享内存的工程实践

RDMA、io_uring、SPDK 的队列结构：同一个环形缓冲，三种姿态

Raft 的隐秘角落：No-op 空日志、幽灵复现与「不等 read_index」优化

Raft 线性一致读：Read Index 与 Lease Read 的攻防推演

Raft 角色图鉴：从标准三角到 Learner 和 Witness

Raft Leader No-op 作用详解

MU 财报拆股交易策略分析

Gamma 风险与 Gamma 挤压：从 GME 案例拆解做市商的对冲螺旋

期权提前平仓与动态对冲：一次学习笔记

虚值与实值期权的流动性之谜：为什么 OTM 盘口更活跃？

SteinsLab LaTeX 公式渲染故障排查报告

Mooncake TE 阅读手记-17-元数据管理

Mooncake TE 阅读手记-16-路径选择与 Peer NIC Path

Mooncake TE 阅读手记-15-RDMA QP/CQ 与操作模式

Mooncake TE 阅读手记-14-RDMA 内存注册与 lkey/rkey

Mooncake TE 阅读手记-13-高性能编程线程模型

Mooncake TE 阅读手记-12-Transport 核心概念与线程模型

Mooncake TE 阅读手记-11-TE 接口设计

Mooncake TE 阅读手记-10-QP Depth 与 Slice 处理

Mooncake TE 阅读手记-09-错误处理策略

Mooncake TE 阅读手记-08-握手协议与 QP 状态机

Mooncake TE 阅读手记-07-RDMA 寻址深度解析

Mooncake TE 阅读手记-06-Segment 与元数据发现

Mooncake TE 阅读手记-05-最小 C++ 示例全解

Mooncake TE 阅读手记-04-Mooncake Store 分层 KV 存储

Mooncake TE 阅读手记-03-TENT 与经典 TE 架构演进

Mooncake TE 阅读手记-02-Buddy Allocator 与两层池化

Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象

高性能线程模型梳理

【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache

【转载】推理的下一级：为什么你的单节点 vLLM 需要 Prefill-Decode 分离

tokenspeed：用眼睛感受 LLM 的 token 生成速度

【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载

【转载】00年互联网泡沫，半导体都发生了什么？悲剧重演？历史已给出答案！

为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质

从 Softmax 梯度消失到 KV Cache 的深度解密：拆解 Transformer 的时空内幕

深入大模型底层：从残差洪流到 Softmax 瓶颈的架构演进

深入浅出 Softmax：从大语言模型、图像分类到推荐系统的“万能概率转换器”

别把你的学习外包给 AI

Qwen3.5 推理全流程解析：基于 vLLM 源码的混合架构逐层拆解

大模型的物理定律：Scaling Laws 从何而来，又往哪去

Qwen3 推理全流程解析：基于 vLLM 源码的逐层拆解

Modular 这家公司到底在做什么：一个 AI 推理基础设施的调研

llm-d KV Cache 感知与流量编排技术报告

【转载】KV Cache 的五个时代

OpenAI 的地精危机：GPT 为什么开始满嘴哥布林

宏观金融危机环境下的资产保值机制与跨周期动态表现深度剖析

brpc client socket 异常路径拆解

C++ 服务端 Coredump 假死之谜：TCP 黑洞现象剖析与 brpc 最佳实践

你们好，我是团团虾

老博客的现代化手术：和 AI 结对快速翻新十年 wordpress 博客

先出 diff 再审稿：DHH 谈 Agent-First、Rails 与「程序员黄金时代」要不要收摊

如果 AI 替我们做完所有的工作：保罗·拉法格与《懒惰权》

Taleb 书单推荐: 齿轮、非对称风险与重构的坐标系

车，Jazz 和五星上将

先有鸡还是先有蛋：从编译器到顶级机床，聊聊"叉车叉叉车"

用系统架构思维重构吉他效果器链路

我们的技术经验正在被"做空"：写在 OpenClaw 刷屏后的 FOMO 时刻

写惯了 Go 的人，可能很难理解 TypeScript 的"类型体操"有多离谱

什么是 KTLO (Keep The Lights On)?

Hello World: 另一条世界线的观测站初始化完毕