学习笔记

分类:学习笔记

2026-05-19 · 24 分钟阅读

vLLM学习笔记-显存管理之PagedAttention

在大语言模型(LLM)的自回归生成(autoregressive decoding)过程中,每一步都会生成一个 token,并将其作为下一步的输入。为了提升推理效率,避免重复计算注意力机制中的 Key 和 Value 向量,系统会将这些中间结果缓存起来——这就是 Key-Value Cache(KV Cache)。 然而,传统的 KV Cache 管理方式存…

学习笔记vLLMAI_Infra
2026-05-19 · 59 分钟阅读

vLLM学习笔记-调度器如何实现

调度器 增加请求 我们可以把 vLLM 的调度理解为以下几条规则: RUNNING 请求优先:vLLM 不是简单地谁先来谁先执行。在每个 scheduler step 中,调度器会先尝试继续调度已经处于 RUNNING 状态的请求。这样做的目的是让已经进入执行流水线的请求持续推进,减少生成过程中的停顿。这里的 RUNNING 不只表示已经开始输出 token…

学习笔记vLLMAI_Infra
2026-05-18 · 62 分钟阅读

vLLM学习笔记-Worker/Executor详解及协作

客户端到 EngineProc 的方向: 客户端使用 ROUTER 套接字发送请求。 EngineProc 使用 DEALER 套接字连接并接收请求。 ROUTER/DEALER 组合适合“前端 client 与后端 engine 之间的异步通信”:前端可以根据DEALER 的 identity 将请求定向发给对应的 EngineProc,而 EngineP…

学习笔记vLLMAI_Infra
2026-05-09 · 45 分钟阅读

vLLM学习笔记-引擎模块和流式执行

离线推理:LLMEngine 在线服务:AsyncLLM ZMQ通信 AsyncLLM负责从客户端接收输入请求,并将其转发至底层实际执行推理任务的引擎组件,随后以异步方式获取执行结果。二者之间的通信依托于 ZeroMQ(ZMQ)实现。 REQ/REP通信模式 client 端将以同步阻塞的方式等待 server 端的响应回复。这种模式要求通信双方严格遵循一问…

学习笔记vLLMAI_Infra
2024-09-19 · 3 分钟阅读

保研复试复习总括

本文针对保研复试进行总复习,对目前的自己针对机器学习、计算机组织,包括数学建模、ACM等等学科进行自己的理解和概括,以总述为主,内容复习为辅。 目的是为了在复试时更好的吹牛qwq。

代码学习笔记学习笔记