Tag: AI

All the articles with the tag "AI".

Mooncake TE 阅读手记-05-最小 C++ 示例全解

26 May, 2026

端到端可编译运行的 Mooncake Transfer Engine 最小示例，逐行解读 target 和 initiator 角色的完整代码流程
Mooncake TE 阅读手记-04-Mooncake Store 分层 KV 存储

26 May, 2026

基于 Transfer Engine 的分布式 KV Cache 对象存储：初始化/注册/挂载/传输四阶段、SSD 三层存储、远端 SSD 读的 TE 配合
Mooncake TE 阅读手记-03-TENT 与经典 TE 架构演进

26 May, 2026

Transfer ENgine nexT（v2 重构版）与经典 TE 在配置、分层、容错、并发、抽象、可观测性六个维度的全面对比
Mooncake TE 阅读手记-02-Buddy Allocator 与两层池化

26 May, 2026

TransferEnginePy 的 Buddy Allocator 与 Store 的 ClientBufferAllocator 两层独立内存池设计
Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象

26 May, 2026

Transfer Engine 最核心的三层数据抽象：Buffer（已注册内存块）、Segment（可发现数据空间）、Slice（传输最小粒度），严格的嵌套关系
韬（τ）定律：后摩尔时代的芯片路线图

25 May, 2026

不是在成熟制程上变魔术——它是用架构红利补偿制程差距的工程框架。为什么是2026年爆发，产业链利润往哪流，落地时间线到哪了。
【转载】美投侃新闻：沃什就任美联储主席，三巨头IPO冲击市场，英伟达CPU数据闹乌龙

23 May, 2026

沃什宣誓就任美联储主席，沃勒释放鹰派信号；AI三巨头IPO潮冲击市场流动性；英伟达CPU数据引争议。
【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache

21 May, 2026

深入浅出地讲解 Transformer 中的 KV Cache 原理：从 prefill 前向传播到 decode 阶段的缓存复用，图解自回归语言模型如何高效生成 tokens。
【转载】推理的下一级：为什么你的单节点 vLLM 需要 Prefill-Decode 分离

21 May, 2026

AMD 与 Embedded LLM 联合展示：在单台 8-GPU MI300X 节点上通过 MORI-IO 实现 PD 分离，Goodput 提升 2.5 倍，消除 ITL 尖峰。
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载

20 May, 2026

vLLM 团队与 Mooncake 合作，通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍，在 60 块 GB200 GPU 上近线性扩展。

Tag: AI

Mooncake TE 阅读手记-05-最小 C++ 示例全解

Mooncake TE 阅读手记-04-Mooncake Store 分层 KV 存储

Mooncake TE 阅读手记-03-TENT 与经典 TE 架构演进

Mooncake TE 阅读手记-02-Buddy Allocator 与两层池化

Mooncake TE 阅读手记-01-Buffer Segment Slice 三层抽象

韬（τ）定律：后摩尔时代的芯片路线图

【转载】美投侃新闻：沃什就任美联储主席，三巨头IPO冲击市场，英伟达CPU数据闹乌龙

【转载】自回归下一个 token 预测与 Transformer 中的 KV Cache

【转载】推理的下一级：为什么你的单节点 vLLM 需要 Prefill-Decode 分离

【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载