Posts
All the articles I've posted.
-
tokenspeed:用眼睛感受 LLM 的 token 生成速度
一个让你用眼睛感受 token 生成速度的小工具,从 5 tok/s 到 800 tok/s,按数字键就能切换
-
【转载】用 vLLM × Mooncake 规模化服务 Agentic 工作负载
vLLM 团队与 Mooncake 合作,通过分布式 KV cache 池将 Agentic 推理吞吐提升 3.8 倍、TTFT 降低 46 倍,在 60 块 GB200 GPU 上近线性扩展。
-
【转载】00年互联网泡沫,半导体都发生了什么?悲剧重演?历史已给出答案!
美投讲美股对2000年互联网泡沫期间半导体行业兴衰的深度复盘,并与当下AI半导体行情进行全面对比。
-
为什么 FFN 不需要 KV Cache——兼谈 Prefill 与 Decode 的计算本质
从 FFN 为什么不需要缓存这一问题出发,串起因果掩码、计算瓶颈、以及 Prefill 与 Decode 在 GPU 上的根本差异。
-
从 Softmax 梯度消失到 KV Cache 的深度解密:拆解 Transformer 的时空内幕
从 Softmax 导数陷阱出发,推导自注意力的物理本质,并揭开 KV Cache 将大模型推理复杂度降低一个维度的工程奥秘。
-
深入大模型底层:从残差洪流到 Softmax 瓶颈的架构演进
深度拆解 Transformer 解码器中最核心的四个数据阀门:Input RMSNorm、残差连接、Final Norm 以及 Softmax 层,探究它们如何协同工作治理深度网络中的数值洪流。
-
深入浅出 Softmax:从大语言模型、图像分类到推荐系统的“万能概率转换器”
梳理 Softmax 在 LLM、图像分类和推荐系统三大核心领域的应用逻辑与工程实践差异。
-
别把你的学习外包给 AI
Addy Osmani 关于 AI 时代工程师学习能力的深度反思。
-
Qwen3.5 推理全流程解析:基于 vLLM 源码的混合架构逐层拆解
基于 vLLM 源码分析 Qwen3.5 的 Hybrid 架构:Full Attention 与 GatedDeltaNet Linear Attention 交替混合、Dense MLP 与 Sparse MoE 双 FFN 变体,从输入嵌入到 logits 输出的完整推理计算流程。
-
大模型的物理定律:Scaling Laws 从何而来,又往哪去
拆解 Scaling Laws 的核心原理、Kaplan 与 Chinchilla 两条路线之争,以及 MoE 架构如何在缩放定律的图表上开出了作弊点。