Machine Learning 学习笔记

    • 博客
    • 公众号
    • Github
    • 微博
    • 知乎

      • HuggingFace
          • LM
            • AI Agent
            • LLM
            • RAG
            • 教程
            • Stable Diffusion
          • Ml
                • LLM
                    • llama.cpp
                • 第四部分 书籍📚
                    • 进阶

                • 微信

                第五章 调度、批处理与 KV Cache


                • 微信

                第五章 调度、批处理与 KV Cache#

                这一章会聚焦 request queue、batch shaping、prefix reuse、内存分配和 KV 生命周期。重点不是单个函数的小技巧,而是资源状态怎样在调度器里稳定演化。

                这一章当前的目录是:

                • 5.1 waiting queue 与 batch shaping
                • 5.2 prefix reuse 与 cache 命中
                • 5.3 KV 生命周期、回收与驱逐
                • 5.4 LoRA 热加载与 adapter 路由
                Backward 第三部分 执行核心 5.1 waiting queue 与 batch shaping Forward

                本文访问量 次

                本站总访问量 次

                本站总访客数 人

                叶王 © 2013-2026 版权所有。如果本文档对你有所帮助,可以请作者喝饮料。


                • 微信