从 Attention 的数学原理出发,逐步拆解 KV Cache 的产生原因、Prefill/Decode 的计算特征差异,以及 vLLM PagedAttention 的页式内存管理。

2026年5月7日 0条评论 17点热度 0人点赞 SPtuan 阅读全文