理解 KV Cache：Attention、P/D 分离与 vLLM 的页式显存管理

从 Attention 的数学原理出发，逐步拆解 KV Cache 的产生原因、Prefill/Decode 的计算特征差异，以及 vLLM PagedAttention 的页式内存管理。

2026年5月7日 2条评论 239点热度 3人点赞 SPtuan 阅读全文