学习笔记

分类：学习笔记

2026-05-19 · 24 分钟阅读

vLLM学习笔记-显存管理之PagedAttention

在大语言模型（LLM）的自回归生成（autoregressive decoding）过程中，每一步都会生成一个 token，并将其作为下一步的输入。为了提升推理效率，避免重复计算注意力机制中的 Key 和 Value 向量，系统会将这些中间结果缓存起来——这就是 Key-Value Cache（KV Cache）。然而，传统的 KV Cache 管理方式存…

学习笔记 vLLM AI_Infra

2026-05-19 · 59 分钟阅读

vLLM学习笔记-调度器如何实现

调度器增加请求我们可以把 vLLM 的调度理解为以下几条规则： RUNNING 请求优先：vLLM 不是简单地谁先来谁先执行。在每个 scheduler step 中，调度器会先尝试继续调度已经处于 RUNNING 状态的请求。这样做的目的是让已经进入执行流水线的请求持续推进，减少生成过程中的停顿。这里的 RUNNING 不只表示已经开始输出 token…

学习笔记 vLLM AI_Infra

2026-05-18 · 62 分钟阅读

vLLM学习笔记-Worker/Executor详解及协作

客户端到 EngineProc 的方向：客户端使用 ROUTER 套接字发送请求。 EngineProc 使用 DEALER 套接字连接并接收请求。 ROUTER/DEALER 组合适合“前端 client 与后端 engine 之间的异步通信”：前端可以根据DEALER 的 identity 将请求定向发给对应的 EngineProc，而 EngineP…

学习笔记 vLLM AI_Infra

2026-05-09 · 45 分钟阅读

vLLM学习笔记-引擎模块和流式执行

离线推理：LLMEngine 在线服务：AsyncLLM ZMQ通信 AsyncLLM负责从客户端接收输入请求，并将其转发至底层实际执行推理任务的引擎组件，随后以异步方式获取执行结果。二者之间的通信依托于 ZeroMQ（ZMQ）实现。 REQ/REP通信模式 client 端将以同步阻塞的方式等待 server 端的响应回复。这种模式要求通信双方严格遵循一问…

学习笔记 vLLM AI_Infra

2026-04-14 · 1 分钟阅读

Muduo网络库学习笔记

学习笔记 C++Muduo

2024-09-19 · 3 分钟阅读

保研复试复习总括

本文针对保研复试进行总复习，对目前的自己针对机器学习、计算机组织，包括数学建模、ACM等等学科进行自己的理解和概括，以总述为主，内容复习为辅。目的是为了在复试时更好的吹牛qwq。

代码学习笔记学习笔记