8. 扩展与调试

扩展与调试#

扩展与调试部分负责收束“系统如何被继续改造、如何被观测、如何被排障”这三个问题。它不是一个杂物间,而是全书最后的操作层:把前面建立好的系统理解转成“出了问题先看哪里、要扩展时改哪里、要维护时怎样验证”。

这一节被放在全书最后,并不是因为它不重要,而是因为它天然依赖前面所有章节:你只有先理解主链路、模块边界、调度与执行模型,才知道 metrics、trace、dump/replay 或扩展点究竟该落在哪些位置。

本节包含什么#

本节包含两章:

  1. 8.1 观测、Tracing 与调试抓手,负责说明 metrics、logging、request trace、dump / replay 与 crash dump 的使用位置。
  2. 8.2 扩展点与维护路径,负责说明新增模型、协议适配、测试回归和贡献路径怎样进入项目。

这一节与前后章节的关系#

把扩展与调试单独收在最后,可以避免前面章节被操作细节打断,也能让读者把这一节看成“建立在主线理解之上的维护层”。因此它最适合作为收束章来读:先理解系统怎样工作,再理解出问题时看哪里、要扩展时改哪里。

本节对应哪些代码路径#

这一节的主锚点包括 docs/advanced_features/observability.mddocs/references/production_metrics.mddocs/references/production_request_trace.mddocs/supported_models/extending/support_new_models.mddocs/developer_guide/contribution_guide.mdtest/README.mdpython/sglang/srt/observability/req_time_stats.pypython/sglang/srt/models/python/sglang/srt/entrypoints/。它们共同回答的是“出问题看哪里、要改系统从哪里进入”。