vLLM学习笔记-显存管理之PagedAttention
在大语言模型(LLM)的自回归生成(autoregressive decoding)过程中,每一步都会生成一个 token,并将其作为下一步的输入。为了提升推理效率,避免重复计算注意力机制中的 Key 和 Value 向量,系统会将这些中间结果缓存起来——这就是 Key-Value Cache(KV Cache)。 然而,传统的 KV Cache 管理方式存…
在大语言模型(LLM)的自回归生成(autoregressive decoding)过程中,每一步都会生成一个 token,并将其作为下一步的输入。为了提升推理效率,避免重复计算注意力机制中的 Key 和 Value 向量,系统会将这些中间结果缓存起来——这就是 Key-Value Cache(KV Cache)。 然而,传统的 KV Cache 管理方式存…
这个博客建立的目的纯属当作记录自己当下生活和类似笔记本的平台,里面包含大量自己的主观臆断。里面的大部分观点是拾人牙慧,自己的看法也大多浅薄且偏激,不具有任何现实意义。我也无意去传播自己的思想,也不屑于拿自己的认识去洗脑别人。当你与我交流时——无论以什么方式,我都会把你看作是与我对等的,具有独立思考能力,具有主体性的,具有共情能力的个体。 博客已经将内容做好了…
调度器 增加请求 我们可以把 vLLM 的调度理解为以下几条规则: RUNNING 请求优先:vLLM 不是简单地谁先来谁先执行。在每个 scheduler step 中,调度器会先尝试继续调度已经处于 RUNNING 状态的请求。这样做的目的是让已经进入执行流水线的请求持续推进,减少生成过程中的停顿。这里的 RUNNING 不只表示已经开始输出 token…
客户端到 EngineProc 的方向: 客户端使用 ROUTER 套接字发送请求。 EngineProc 使用 DEALER 套接字连接并接收请求。 ROUTER/DEALER 组合适合“前端 client 与后端 engine 之间的异步通信”:前端可以根据DEALER 的 identity 将请求定向发给对应的 EngineProc,而 EngineP…
离线推理:LLMEngine 在线服务:AsyncLLM ZMQ通信 AsyncLLM负责从客户端接收输入请求,并将其转发至底层实际执行推理任务的引擎组件,随后以异步方式获取执行结果。二者之间的通信依托于 ZeroMQ(ZMQ)实现。 REQ/REP通信模式 client 端将以同步阻塞的方式等待 server 端的响应回复。这种模式要求通信双方严格遵循一问…
记录一下这几个月发生的事。
对于 CS106L 2019 进行了学习
借由这个话题顺带总结一下我研一上的生活。 这篇文章好好写一下。
2025年终总结 2025年12月31日,西安长安区,混合雨雪。收起雨伞,伞面上也附上了星星点点的霜。 取次花丛懒回顾,半缘修道半缘君。 今年就以这句诗来作为总结吧。其实选这句话多少有点矫情,正如同我以往的文章那般,说白了就那么点事,至于去投入那么多的情绪去故作深沉,做出那么多不合常理的行为去故作姿态吗?情绪的持续是短暂的,正如行为的持续是短暂的,然…