从 Attention 的数学原理出发,逐步拆解 KV Cache 的产生原因、Prefill/Decode 的计算特征差异,以及 vLLM PagedAttention 的页式内存管理。

2026年5月7日 2条评论 243点热度 3人点赞 SPtuan 阅读全文