第五章 调度、批处理与 KV Cache#这一章会聚焦 request queue、batch shaping、prefix reuse、内存分配和 KV 生命周期。重点不是单个函数的小技巧,而是资源状态怎样在调度器里稳定演化。这一章当前的目录是:5.1 waiting queue 与 batch shaping5.2 prefix reuse 与 cache 命中5.3 KV 生命周期、回收与驱逐5.4 LoRA 热加载与 adapter 路由
叶王 © 2013-2026 版权所有。如果本文档对你有所帮助,可以请作者喝饮料。