ModelConfig、tokenizer 与 processor 的启动链#

这章解决什么问题#

运行时架构前面已经讲了 ServerArgs 如何把配置编译成系统人格，也讲了 TemplateManager、TpModelWorker 和 ModelRunner 的边界，但还有一条非常关键的启动链没有单独成章：模型配置、tokenizer、processor 和 multimodal processor 到底怎样被装配起来，以及这条链如何决定后面哪些能力真正可用。

这一章的目标，就是把这条启动链讲清楚。

为什么这层值得单独讲#

因为很多后续行为都直接依赖它：

skip_tokenizer_init 是否允许文本输入
模型到底被识别成 generation / embedding / multimodal 哪一类
processor 是否存在
scheduler 侧是否能加载 multimodal processor 做 M-RoPE fallback
reasoning parser 是否能从 tokenizer 里得到 think_end_id

换句话说，这不是“启动时顺手做的准备工作”，而是运行时能力边界的真正来源。

一张图：模型启动链的真正顺序#

这张图解决的理解障碍是：很多读者会把“加载模型”和“拿 tokenizer”想成平行动作，而实际上中间隔着 ModelConfig 对系统人格的判定。

flowchart LR
    Args["ServerArgs"] --> MC["ModelConfig.from_server_args()"]
    MC --> Kind["generation / multimodal / encoder-decoder / local-attn"]
    Kind --> Tok["get_tokenizer() or get_processor()"]
    Tok --> MM["get_mm_processor() when needed"]
    MM --> Runtime["scheduler / template / execution path"]

这张图比纯文字多解释的一点是：ModelConfig 是这条链的中心枢纽，而不是简单的模型元数据缓存。

`ModelConfig.from_server_args()` 为什么是运行时人格判定器#

scheduler.py 初始化时会先构造 ModelConfig.from_server_args(self.server_args)。这一步之后，系统会确定很多关键信息：

is_generation
is_multimodal
is_audio_model
is_encoder_decoder
sliding_window_size
attention_chunk_size

这说明模型不是等到 forward 时才“临时决定自己是什么”，而是在启动阶段就已经把一整套人格判定下来。

`skip_tokenizer_init` 为什么不是小优化#

scheduler.init_tokenizer() 里如果 skip_tokenizer_init=True，就直接让 self.tokenizer = self.processor = None。这意味着后面很多路径的能力边界会立刻变化：

文本 prompt 不再可直接接受
需要显式 input_ids
与 template / chat 解释相关的逻辑也会受限

这说明这不是“启动快一点”的小优化，而是主动切断某些上层能力的开关。

`get_processor()` 与 `get_tokenizer()` 为什么要分开#

对多模态模型，scheduler 会优先：

get_processor(...)
再 get_tokenizer_from_processor(...)

对纯文本模型，则直接：

get_tokenizer(...)

这说明在运行时眼里，processor 和 tokenizer 不是可互换的初始化细节，而是与模型能力边界强绑定的两个入口。也就是说，系统承认：

有的模型仅有 tokenizer 即可
有的模型必须先拿 processor，再从中提取 tokenizer

`get_mm_processor()` 为什么是这条链的第二段装配#

即使已经拿到了 processor，scheduler 还会进一步：

import_processors("sglang.srt.multimodal.processors")
get_mm_processor(...)

这说明多模态能力并不是“processor 一到位就全部可用”。系统还需要把更运行时化的 multimodal processor 插进来，特别是为 M-RoPE fallback 等逻辑服务。

这是一条很好的架构证据：配置层判定你是多模态模型，并不自动代表调度层已经具备所有多模态运行时工具。

reasoning parser 和 tokenizer 的关系为什么值得提#

scheduler.init_tokenizer() 最后还会在启用 reasoning parser 时，用 tokenizer 去编码 think_end_token，再把结果写回 model_config.think_end_id。这说明某些执行层或结构化层的关键 token 边界，是在启动链里被解析出来的，而不是硬编码在模型配置里。

这也是为什么“tokenizer 初始化成功与否”会影响的不只是输入处理，还会影响后面 reasoning / grammar / output semantics 的边界。

为什么这条链会和很多章节形成回扣#

这章天然会和前文回扣：

与运行时架构：说明系统能力边界从哪里来
与 request lifecycle：解释为什么某些请求在入口就被限制
与 structured generation：解释 reasoning / multimodal 边界如何获得关键 token 和 processor 能力
与 execution model：解释为什么某些 backend / runner 只在特定模型人格下成立

这也是它值得单独成章的原因。

这一层最容易出现的误判#

1. 把 `ModelConfig` 当作纯 Hugging Face config 包装#

实际上它在替运行时做大量能力判定。

2. 以为 tokenizer / processor 初始化只影响输入#

其实它也影响 reasoning、multimodal fallback 和模板解释边界。

3. 以为多模态支持只取决于模型类型#

真正运行时还要看 processor 与 mm_processor 能否顺利装上。

如果你怀疑问题出在启动链，先怎么查#

建议按这个顺序：

看 ServerArgs 最终构造出的 ModelConfig 是什么人格。
看 skip_tokenizer_init 是否已经切断 tokenizer / processor。
看多模态模型是否真的拿到了 processor 与 mm_processor。
再看 reasoning / template / execution 层受到了哪些连锁影响。

小结#

这一章真正想补齐的，是运行时架构里最容易被隐藏掉的一条启动链：

ModelConfig 决定模型人格
tokenizer / processor 决定解释边界
mm_processor 和 reasoning parser 决定进一步的运行时能力

到这里，运行时架构对“系统启动后到底拥有哪些能力”就有了更完整的解释。