第三部分 执行核心#

这一部分进入系统最“硬”的中段:请求如何排队、如何成批、KV cache 如何存活、forward path 如何真正落到模型执行、结构化约束又怎样进入采样链。

三章之间的关系可以先压成一条顺序:

  • 第五章讲资源和调度怎样把一轮执行组织出来
  • 第六章讲这一轮执行怎样真正跑起来并产出结果
  • 第七章讲结构化约束怎样压回执行链和更长的工作流

如果把第三部分当作“执行核心总览”,那么第五章解决“这一轮为什么是它们”,第六章解决“这一轮怎样算出来”,第七章解决“这一轮为什么不能自由地产生任意文本”。

这一部分包含三章:

  1. 第五章 调度、批处理与 KV Cache
  2. 第六章 执行模型与采样
  3. 第七章 结构化生成与 API 表面