第二章阅读准备 on Machine Learning 学习笔记

2.1 上游版本、提交与源码锚点约定

Mon, 01 Jan 0001 00:00:00 +0000

上游版本、提交与源码锚点约定#

这一节负责把“引用哪份源码、怎样稳定落到具体位置”说明清楚。没有这层约定，后面的章节就很容易在不同版本之间漂移，读者也很难判断哪些结论是事实，哪些只是工作性推断。

为什么这层必须先说清楚#

这本书不是只讲观念，也不是只讲接口。它会反复回到真实代码路径，所以一开始就必须先回答两个问题：

整本书默认以哪一版上游仓库为准；
正文里的源码引用怎样稳定落到具体位置。

如果这两个问题不先收口，后面的章节就很容易出现这种情况：

某一页讲的是 main 的行为
另一页讲的是旧 tag 的行为
读者却以为整本书都在讲同一份代码

这会直接破坏一本系统书最基本的可信度。

当前的上游基线是什么#

本书当前默认以：

sgl-project/sglang
v0.5.10
commit 1519acf37c23f2189adb93f57ca9cd2db1bebf18

为基线。

这个约定的价值，不只是“以后方便核对”，而是让后面的每个结论都能回到同一份源码时间点上。这样读者在不同章节之间切换时，不需要一直怀疑“是不是版本又变了”。

为什么源码链接不能靠手写#

如果所有链接都手写成 GitHub 长链接，短期看起来当然能用，但后面会很快出现三个问题：

版本一旦更新，整本书要到处找链接替换；
同一段代码在多章被引用时，容易出现路径或行号不一致；
正文会混入很多又长又难维护的 URL。

所以这本书现在统一用 sglref 这套约定：正文只写稳定的引用 id，实际渲染时再落到固定 commit 的 GitHub 行号。

`sglref` 解决的是什么问题#

sglref 不是为了花哨，而是为了把两件事拆开：

正文里引用“什么概念 / 什么符号”
渲染时跳到“哪一份代码 / 哪一行”

这样做的收益很直接：

作者写正文时不必反复手拼 GitHub URL；
同一锚点在多章复用时，只需要维护一份映射；
以后如果锚点更新，可以集中改，不必改散落在正文里的每个链接。

这本书后面的所有代码书写和 review，都会默认站在这个约定之上。

反复回扣的主锚点有哪些#

从整本书后面的结构看，最值得反复回扣的几组锚点大概是：

入口锚点：
- python/sglang/launch_server.py
- python/sglang/srt/entrypoints/http_server.py
请求主线锚点：
- python/sglang/srt/managers/tokenizer_manager.py
- python/sglang/srt/managers/scheduler.py
- python/sglang/srt/managers/detokenizer_manager.py
执行核心锚点：
- python/sglang/srt/managers/schedule_batch.py
- python/sglang/srt/model_executor/forward_batch_info.py
- python/sglang/srt/model_executor/model_runner.py
- python/sglang/srt/sampling/sampling_params.py
结构化语义锚点：
- python/sglang/srt/entrypoints/openai/protocol.py
- python/sglang/srt/function_call/function_call_parser.py
维护与证据锚点：
- python/sglang/srt/observability/req_time_stats.py
- python/sglang/srt/utils/request_logger.py

这份列表不是为了让读者现在就背下来，而是为了让后面的章节在反复回扣时看起来像回到同一组主脊梁，而不是不断引入新的零散文件。

2.2 术语表与对象对照

Mon, 01 Jan 0001 00:00:00 +0000

术语表与对象对照#

这一节解决“同一个词在不同层里是什么意思”这个问题。SGLang 的很多对象会在协议层、manager 层、scheduler 层和执行层反复出现，如果术语不先对齐，后面越深入越容易混淆。

为什么术语要先收口#

系统书一旦变厚，最先失稳的往往不是局部事实，而是对象边界。尤其对 SGLang 这种系统来说，很多词会在不同章节反复出现，但并不站在同一抽象层。只要口径稍微漂移，读者就会在章节之间反复重建对象模型，最后把“回扣”读成“混乱”。

所以这一节不是附录词典，而是整本书后面反复要回来的总坐标。

第一组：请求对象#

最先需要对齐的是请求对象这组词：

术语	主层次	更像什么	不要和什么混读
`GenerateReqInput`	协议 / 运行时交界	统一的 runtime 请求输入	不要把它看成 HTTP request body
`ReqState`	API server 侧	请求状态与返回收口容器	不要把它看成 scheduler 的主语
`Req`	调度 / 执行交界	单请求运行时本体	不要把它当成回包对象

更稳的记法是：

GenerateReqInput 负责统一输入形态
ReqState 负责 API server 侧状态
Req 负责 runtime 侧工作单元

第二组：batch 与执行对象#

第二组最容易混的是 batch 和执行对象：

术语	主层次	更像什么	不要和什么混读
`ScheduleBatch`	调度层	这一轮被组织出来的运行批次	不等于执行层输入
`ForwardBatch`	执行前边界	前向真正消费的对象	不等于 waiting queue 的延续
`ModelRunner`	执行壳	在当前并行拓扑下运行模型前向	不等于调度器的附属函数

这组对象是第三部分反复回扣的主轴。只要这组边界先稳住，后面读第五章和第六章就不会把调度与执行混成一层。

2.3 不同角色的建议阅读路径

Mon, 01 Jan 0001 00:00:00 +0000

不同角色的建议阅读路径#

这一节不是在重新列目录，而是在回答“不同背景的工程师应该怎样进入这本书”。平台工程、推理 runtime 和框架工程读同一套材料时，最关心的切口并不一样。

为什么这层值得单独成节#

一本系统书一旦变厚，单纯给出目录顺序就不够了。读者还会自然问：

如果我是平台工程师，我最该先抓哪几章？
如果我最关心吞吐、batch 和 cache，该避开哪些前期噪声？
如果我更偏接口和结构化语义，应该先看哪里？

这一节的作用，就是把整本书按角色重新剪成几条更具体的阅读线。

路线一：平台工程 / serving 工程#

如果你的核心问题是：

服务怎样启动与装配
请求怎样穿过 managers
多 worker / rank / mode 怎样改变系统行为
线上故障怎样先回到正确的证据链

那么更稳的顺序通常是：

第一章系统概览
第三章请求路径
第四章运行时架构
第五章调度、批处理与 KV Cache
第九章可观测性与调试

这条路线的重点不是尽快钻执行细节，而是先把系统边界和控制面立住。

路线二：推理 runtime / 性能工程#

如果你的核心问题是：

batch 为什么会长成这样
prefix reuse、KV cache 和吞吐为什么会互相影响
token selection、finish reason 和 output tail 为什么会这样工作
优化后应该拿什么证明它真的更快了

那么更稳的顺序通常是：

第一章系统概览
第三章请求路径
第五章调度、批处理与 KV Cache
第六章执行模型与采样
第九章可观测性与调试

这条路线会更快进入系统内部的“硬”部分，但仍然保留足够的入口和路径背景，避免一开始就把 scheduler.py 读散。

第二章 阅读准备 on Machine Learning 学习笔记

2.1 上游版本、提交与源码锚点约定

上游版本、提交与源码锚点约定#

为什么这层必须先说清楚#

当前的上游基线是什么#

为什么源码链接不能靠手写#

sglref 解决的是什么问题#

反复回扣的主锚点有哪些#

2.2 术语表与对象对照

术语表与对象对照#

为什么术语要先收口#

第一组：请求对象#

第二组：batch 与执行对象#

2.3 不同角色的建议阅读路径

不同角色的建议阅读路径#

为什么这层值得单独成节#

路线一：平台工程 / serving 工程#

路线二：推理 runtime / 性能工程#

第二章阅读准备 on Machine Learning 学习笔记

`sglref` 解决的是什么问题#