第六章执行模型与采样 on Machine Learning 学习笔记

6.1 `ForwardBatch` 与 `ModelRunner`

Mon, 01 Jan 0001 00:00:00 +0000

`ForwardBatch` 与 `ModelRunner`#

第五章讲的是请求怎样成 batch，第六章开始要回答另一件事：这个 batch 最后怎样真正落到执行层。站在调度器视角看，手里还是 Req 和 ScheduleBatch；站在执行层看，需要的却已经是更贴近前向计算的对象。这条边界正是 ForwardBatch 和 ModelRunner 共同承担的。

这一节解决什么问题#

这一节主要回答三件事：

ScheduleBatch 为什么还不等于执行输入；
ForwardBatch 到底把哪些调度信息压成了前向输入；
ModelRunner 为什么被设计成执行壳，而不是直接把模型暴露给 scheduler。

一张图先看执行前的最后两层#

flowchart LR
 A["Req / ScheduleBatch"] --> B["ForwardBatch"]
 B --> C["ModelRunner"]
 C --> D["模型前向 / logits / hidden states"]

这张图最重要的一点是：执行层接手 batch 之前，还有一层专门把调度对象翻译成前向对象的边界。

`ForwardBatch` 解决的是“执行层到底要吃什么”#

ForwardBatch 从字段定义就能看出，它已经明显偏执行层：

input_ids
req_pool_indices
seq_lens
out_cache_loc
positions
sampling_info
req_to_token_pool
token_to_kv_pool

这说明 ForwardBatch 不再关心 waiting queue 里还有谁、哪条请求为什么先入队，它只关心这一轮前向真正需要的输入、位置、缓存映射和采样附带信息。

所以 ForwardBatch 的职责不是“再包一层数据”，而是把调度对象压成执行层可直接消费的形式。

如果把这层桥接再压成更短的一段代码，可以直接看到“调度对象怎样被翻译成执行对象”：

return cls(
 reqs=reqs,
 req_to_token_pool=req_to_token_pool,
 token_to_kv_pool_allocator=token_to_kv_pool_allocator,
 tree_cache=tree_cache,
 model_config=model_config,
 enable_overlap=enable_overlap,
)

这段代码值得看的不是参数列表，而是这些参数的来源：前半部分仍然是调度器关心的 request 和 cache，后半部分已经开始偏向执行器关心的运行配置。

6.2 `SamplingParams` 与 token selection

Mon, 01 Jan 0001 00:00:00 +0000

`SamplingParams` 与 token selection#

有了 ForwardBatch 和 ModelRunner，执行层已经能把一轮前向跑出来。但"模型已经前向"还不等于"下一个 token 已经选出来"。这一节处理的就是这一层：采样参数怎样进入执行链，又怎样真正影响 token selection。

这一节解决什么问题#

这一节主要回答三件事：

SamplingParams 到底承载了哪些语义；
为什么采样参数不只是用户接口上的便利字段；
token selection 为什么必须和 stop、schema、tool constraint 等控制一起理解。

`SamplingParams` 不是参数袋，而是运行时约束集合#

SamplingParams 的字段范围已经说明，它承载的不只是传统采样超参：

temperature
top_p
top_k
frequency_penalty
presence_penalty
max_new_tokens
json_schema
regex
ebnf
sampling_seed

这说明 SamplingParams 不是"采样超参对象"这么简单，而是执行层在选 token 时必须同时看的约束集合。

如果把这层关系先压成一张图，会更容易看清参数到底是在什么时候进入执行链的：

flowchart LR
 A["OpenAI / frontend request"] --> B["to_sampling_params(...)"]
 B --> C["SamplingParams"]
 C --> D["token selection"]
 C --> E["stop / schema / tool constraints"]
 E --> D

这张图最重要的一点是：采样参数不是执行层事后读取的配置，而是在进入 token selection 之前就已经被统一收拢好了。

6.3 logprob、finish reason 与 output processing

Mon, 01 Jan 0001 00:00:00 +0000

logprob、finish reason 与 output processing#

执行层不只负责“选出下一个 token”，还必须把这一轮选出来的结果重新组织成调用方和上层 manager 能理解的输出。这一节处理的正是执行尾部：logprob、finish reason 和 output processing 怎样被统一归档回结果对象。

这一节解决什么问题#

这一节主要回答三件事：

执行层输出为什么不只是一个 token id；
finish reason 在什么时候真正稳定下来；
logprob、输出文本和各种附带信息是怎样被统一折叠回结果对象的。

一张图先看执行尾部#

flowchart LR
 A["model forward"] --> B["token id / logits"]
 B --> C["finish reason / logprob / extras"]
 C --> D["BatchTokenIDOutput / BatchStrOutput"]
 D --> E["serving / final response"]

这张图最重要的一点是：执行层的尾部并不只产出 token，而是产出一整组随后还要继续回流到返回链上的结果语义。

为什么执行层的“结果”不只是一个 token#

对运行时来说，一轮执行至少可能产出这些信息：

新 token id
logprob / top logprobs
finish reason
hidden states
routed experts

也就是说，执行层不是只在做“生成文本”，而是在生产一组后续还会被不同路径消费的结果元数据。

这也是为什么第三章里 BatchTokenIDOutput 和 BatchStrOutput 会显得那么重：它们承接的并不是单一文本，而是执行尾部的一整组结果语义。

6.4 Speculative Decoding

Mon, 01 Jan 0001 00:00:00 +0000

Speculative Decoding#

前三节讲的是标准的 prefill + autoregressive decode 路径。这一节处理一种不同的执行模式：speculative decoding。它让 ModelRunner 在每一步不再只生成一个 token，而是先用一个轻量 draft model 猜多个 token，再用 target model 一次性验证，从而在不改变输出分布的前提下显著提升吞吐。

这一节解决什么问题#

这一节主要回答三件事：

speculative decoding 在 SGLang 里怎样被表达成执行配置；
draft + verify 两阶段怎样和 ForwardBatch / ModelRunner 结合；
为什么 speculative decoding 不改变输出分布，以及这个保证在 SGLang 里怎样落实。

一张图先看整体结构#

flowchart TB
 subgraph Draft["Draft 阶段（轻量模型）"]
 A["当前 token"] --> B["draft model forward x K 步"]
 B --> C["候选 token 序列 [t1, t2, ..., tK]"]
 end

 subgraph Verify["Verify 阶段（target model）"]
 C --> D["target model 并行 forward K+1 个位置"]
 D --> E["接受/拒绝每个候选 token"]
 end

 subgraph Accept["输出"]
 E --> F["接受的 token（可能 0 ~ K 个）"]
 F --> G["最多接受 K 个 + 1 个 bonus token"]
 end

这张图最值得记住的一点是：target model 只需要跑一次 forward（K+1 个位置并行），就能完成 K 个 token 的验证。当 draft model 的猜测大部分正确时，一次 target forward 等于原本 K 次 autoregressive decode。

第六章 执行模型与采样 on Machine Learning 学习笔记

6.1 `ForwardBatch` 与 `ModelRunner`

ForwardBatch 与 ModelRunner#

这一节解决什么问题#

一张图先看执行前的最后两层#

ForwardBatch 解决的是“执行层到底要吃什么”#

6.2 `SamplingParams` 与 token selection

SamplingParams 与 token selection#

这一节解决什么问题#

SamplingParams 不是参数袋，而是运行时约束集合#

6.3 logprob、finish reason 与 output processing

logprob、finish reason 与 output processing#

这一节解决什么问题#

一张图先看执行尾部#

为什么执行层的“结果”不只是一个 token#

6.4 Speculative Decoding

Speculative Decoding#

这一节解决什么问题#

一张图先看整体结构#

第六章执行模型与采样 on Machine Learning 学习笔记

`ForwardBatch` 与 `ModelRunner`#

`ForwardBatch` 解决的是“执行层到底要吃什么”#

`SamplingParams` 与 token selection#

`SamplingParams` 不是参数袋，而是运行时约束集合#