理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

从 Attention 的数学原理出发，逐步拆解 KV Cache 的产生原因、Prefill/Decode 的计算特征差异，以及 vLLM PagedAttention 的页式内存管理。

2026年5月7日 2条评论 779点热度 3人点赞 SPtuan 阅读全文

2025 年 11 月 08 日 - 09 日，周大服 12 周年学术研讨会暨李相俊教授指导会在北京圆满落幕。

2025年11月11日 1条评论 586点热度 0人点赞 SPtuan 阅读全文

braft 是一个较多人使用的 C++ raft 框架。开发者基于其抽象接口实现自己的业务逻辑，方便实现 raft 高可用的服务。本文从 metrics 入手，梳理开发者应该持续关注哪些监控变量。以其为线索，阅读源码探究其实现原理。力争做到心里有谱，不惧异常。

2024年5月12日 5条评论 4892点热度 1人点赞 SPtuan 阅读全文

我们思考了很久，如何筹备一场新人和宾客都能沉浸其中的婚礼。“简单、自由、快乐、分享” 成为了主题。我们找到了生活的答案，并邀请朋友们一同见证。

2024年3月25日 8条评论 4044点热度 6人点赞 SPtuan 阅读全文

本系列文章是笔者阅读微软存储系统论文《Windows Azure Storage: a highly available cloud storage service with strong consistency》的笔记和思考。

2023年11月28日 0条评论 4200点热度 1人点赞 SPtuan 阅读全文

100 Go Mistakes and How to Avoid Them 阅读笔记。4-Control Structures, 6-Functions and Methods, 7-Error Management

2023年1月18日 0条评论 3012点热度 0人点赞 SPtuan 阅读全文

本文是笔者设计流量复制方案时的一次调研。调研了7层流量复制组件 GoReplay，并 review 了其中一些Plugin的具体实现。

2022年6月29日 1条评论 5562点热度 1人点赞 SPtuan 阅读全文

2021年可能是我最有体验感的1年。 Simple, Happy, Together 是公司某次 Campign 的主题语，我想用来形容这一年，很合适。

2022年2月7日 12条评论 11304点热度 5人点赞 SPtuan 阅读全文

最近实施了一个针对某开源软件的压测方案。借这次机会，尝试梳理了自己在考虑和实行压力测试方案时，想到的一些内容，作为思考笔记。

2022年2月6日 3条评论 3379点热度 0人点赞 SPtuan 阅读全文

距离21年1月心急如焚地撤离，10个月逝去。2.5年的喜怒哀乐回忆已经剥离了主观情绪，变成存档。我喝了一升可乐，吃了两斤荔枝，以照片系列的形式，在这里写一点东西。如果你正在和我在2020年一样深陷泥泞，希望这篇文章能给你带来力量。如果将来不幸的我又和2020年一样深陷泥泞，希望这篇文章也能给我带来力量。