第三部分 执行核心#
这一部分进入系统最“硬”的中段:请求如何排队、如何成批、KV cache 如何存活、forward path 如何真正落到模型执行、结构化约束又怎样进入采样链。
三章之间的关系可以先压成一条顺序:
- 第五章讲资源和调度怎样把一轮执行组织出来
- 第六章讲这一轮执行怎样真正跑起来并产出结果
- 第七章讲结构化约束怎样压回执行链和更长的工作流
如果把第三部分当作“执行核心总览”,那么第五章解决“这一轮为什么是它们”,第六章解决“这一轮怎样算出来”,第七章解决“这一轮为什么不能自由地产生任意文本”。
这一部分包含三章:
叶王 © 2013-2026 版权所有。如果本文档对你有所帮助,可以请作者喝饮料。