Typed IPC、Communicator 与 manager 消息织网#

这章解决什么问题#

运行时架构前面已经把进程边界、启动装配、模板解释层和热变更控制面讲出来了，但还缺一层非常“系统内部”的东西：这些 manager 之间究竟靠什么消息协议互相说话？如果不把这层讲清楚，TokenizerManager、Scheduler、DetokenizerManager 这些组件就仍然像几个靠魔法连接的盒子，而不是一张有类型、有方向、有同步语义的 IPC 网络。

这一章专门解释 SGLang 里的 typed IPC fabric。

为什么这一层值得单独讲#

从 tokenizer_manager.py、scheduler.py、detokenizer_manager.py、multi_tokenizer_mixin.py 和 tokenizer_communicator_mixin.py 看，SGLang 并不是简单地“开几个 ZMQ socket 互发对象”。它实际做了三层约束：

传什么类型的对象
谁负责按类型分发
哪些请求是 fire-and-forget，哪些请求必须等到所有 rank 回答

这三层合在一起，才构成了一个真正可维护的 manager 消息网络。

一张图：manager 之间不是点对点函数调用，而是 typed message fabric#

这张图解决的理解障碍是：很多人会把 send_pyobj/recv_pyobj 看成简单的 IPC 细节，但实际上它们背后还有 dispatcher 和 communicator 两层抽象。

flowchart LR
    TM["TokenizerManager"] --> Comm["_Communicator / send_pyobj"]
    Comm --> SCH["Scheduler"]
    SCH --> Disp["TypeBasedDispatcher"]
    SCH --> DET["DetokenizerManager"]
    DET --> TM
    SCH --> RPC["RPC / DP / other workers"]

这张图比纯文字多解释的一点是：manager 之间的通信不是单一通道，而是一组“typed message + dispatcher + communicator”共同组成的织网。

`TypeBasedDispatcher` 的价值：消息先按类型，再按阶段理解#

TokenizerManager、Scheduler、DetokenizerManager 都会在初始化时创建各自的 TypeBasedDispatcher。

这意味着消息处理的第一步不是“从哪个 socket 来”，而是“它是什么类型”。

例如：

TokenizerManager 的 _result_dispatcher 会处理 BatchStrOutput、BatchEmbeddingOutput、AbortReq、UpdateWeightFromDiskReqOutput 等不同类型。
DetokenizerManager 的 _request_dispatcher 会处理 BatchTokenIDOutput、BatchEmbeddingOutput、FreezeGCReq。
Scheduler 自己也会把来自 tokenizer、RPC 或其他控制面的对象按类型分发。

这是一种典型的大系统设计：进程边界之外再加一层“消息类型边界”，让处理逻辑不至于退化成一串混乱的 if/else。

`_Communicator` 的价值：多 rank 请求怎样被统一成一条控制面#

tokenizer_communicator_mixin.py 里的 _Communicator 非常关键。它背后的设计问题是：当 TokenizerManager 想对 scheduler 侧发一个控制请求时，这个请求可能要发给所有 DP rank，也可能只需要一个 watching 式返回，还可能要合并多个 rank 的结果。

这也是为什么 _Communicator 不只是“包装 send_pyobj”：

它知道应该等多少份结果。
它知道怎样 merge results。
它让 check_weights(...)、update_weights_from_*、flush_cache、profile、get_internal_state 这些不同控制请求都可以沿同一条通信语义走。

为什么这比“直接调 scheduler 方法”更有价值#

因为在多进程、多 rank runtime 里，调用目标并不总是唯一，也不总是在同一个地址空间里。typed communicator 的好处是：上层控制面可以说“我要做一次 check_weights”，而不必手写一堆“发给几个 rank、等几次返回、如何聚合错误”的细节。

这类抽象非常值得写进技术书，因为它代表的是“系统如何在复杂部署下保持控制面一致性”，而不是某个具体功能。

`send_pyobj` / `recv_pyobj` 为什么仍然值得看#

虽然 _Communicator 和 dispatcher 已经把语义层包起来了，但底下仍然能看到很多明确的发送点：

TokenizerManager._send_one_request(...)
TokenizerManager._send_batch_request(...)
各种 control request 如 pause_generation、FreezeGCReq、load_update_req
DetokenizerManager.event_loop() 里的 recv_pyobj() 和 send_pyobj()
多 tokenizer worker / router 里的对象转发

这说明系统没有把消息传递完全藏起来。对阅读者来说，更稳的做法是：

先看高层 _Communicator 和 dispatcher 明白消息语义。
再看低层 send_pyobj/recv_pyobj 明白消息真的从哪发、发到哪去。

multi-tokenizer 路径如何复用这一层#

multi_tokenizer_mixin.py 里出现的 MultiTokenizerRouter、TokenizerWorker 和 SocketMapping 说明，多入口路径不是另起一套消息机制，而是在现有 typed IPC 之上再套一层 worker identity routing。

也就是说：

主链路的消息类型体系不变。
变的是“哪个入口 worker 应该收到哪份结果”。

这让整本书前面讲过的 request lifecycle 与这里的 IPC fabric 形成了自然回扣。

这一层最容易出现的误判#

1. 把所有通信都当成“普通请求主链”#

实际上很多控制面请求走的是 communicator，而不是 generate_request() 那条用户请求链。

2. 以为 rank 聚合是 control request 自己手写完成的#

很多地方其实已经被 _Communicator 封装成统一模式。

3. 看到 socket 就只从网络角度理解#

真正更有价值的是消息类型和结果聚合语义，而不是 socket 名称本身。

如果 manager 之间通信出问题，先怎么查#

建议按这个顺序：

看当前问题是用户请求链，还是控制面 communicator 链。
看对应 TypeBasedDispatcher 是否注册了正确类型。
看 _Communicator 期望等几份结果、是否 merge 成功。
最后再看具体 send_pyobj/recv_pyobj 的 socket 和发送时机。

小结#

这一章真正想补齐的，是运行时架构里最像“神经系统”的那一层：

进程边界之外，还存在消息类型边界。
_Communicator 负责把多 rank 控制面请求收拢成统一调用语义。
TypeBasedDispatcher 负责把消息类型重新落回本地处理逻辑。

到这里，运行时架构就不只是在讲哪些组件存在，也开始解释这些组件是怎样靠一张 typed message fabric 连起来的。