从 Attention 的数学原理出发,逐步拆解 KV Cache 的产生原因、Prefill/Decode 的计算特征差异,以及 vLLM PagedAttention 的页式内存管理。
从 Attention 的数学原理出发,逐步拆解 KV Cache 的产生原因、Prefill/Decode 的计算特征差异,以及 vLLM PagedAttention 的页式内存管理。
braft 是一个较多人使用的 C++ raft 框架。开发者基于其抽象接口实现自己的业务逻辑,方便实现 raft 高可用的服务。本文从 metrics 入手,梳理开发者应该持续关注哪些监控变量。以其为线索,阅读源码探究其实现原理。力争做到心里有谱,不惧异常。
我们思考了很久,如何筹备一场新人和宾客都能沉浸其中的婚礼。“简单、自由、快乐、分享” 成为了主题。我们找到了生活的答案,并邀请朋友们一同见证。
本系列文章是笔者阅读微软存储系统论文 《Windows Azure Storage: a highly available cloud storage service with strong consistency》的笔记和思考。
100 Go Mistakes and How to Avoid Them 阅读笔记。4-Control Structures, 6-Functions and Methods, 7-Error Management
2021年可能是我最有体验感的1年。 Simple, Happy, Together 是公司某次 Campign 的主题语,我想用来形容这一年,很合适。
距离21年1月心急如焚地撤离,10个月逝去。2.5年的喜怒哀乐回忆已经剥离了主观情绪,变成存档。我喝了一升可乐,吃了两斤荔枝,以照片系列的形式,在这里写一点东西。如果你正在和我在2020年一样深陷泥泞,希望这篇文章能给你带来力量。如果将来不幸的我又和2020年一样深陷泥泞, 希望这篇文章也能给我带来力量。
比较偶然的机会,以学生的眼光,收集了这个行业的一些信息。包括表层的一些框架和大厂们采用的硬件方案。 一路曲折走过来,以后大概率从事这个行业,应该多多积累信息,别憋死在象牙塔里才是。
带来一篇迟到的图记。折腾了半年,各方面总算适应下来。能在下半年天时地利人和,奇迹一样得到去演唱会的机会,是2018年中最高兴的事之一。
嗨多磨。在之前的文章中,我们以Q-Learning为例,先入为主,对强化学习的基本要素和核心思想进行了学习。今天这篇文章,主要是将马尔科夫决策过程单独拿出来探究。它在很多领域都有应用,十分值得单独拿出进行探究和学习。
新拿到了一块Intel Movidius Neural Compute Stick,是Intel Movidius推出的一款针对神经网络边缘计算加速的usb设备。今天我们来把它和同样低成本的单板计算机树莓派 Raspberry Pi 配合使用,看看综合效能如何。
最近拿到了基于ZYNQ 7020器件的PYNQ开发板,便有了这篇体验文章。本文首先进行常规的开箱和初见印象描述;随后尝试解释了ZYNQ这一硬件的特色;最后以目标检测为例,体验了PYNQ的开发流程。