第四章 运行时架构#这一部分不再只问“请求怎样走”,而是回答“这些边界为什么要这样切”。重点会落在 entrypoints、manager、worker、rank、port 和 IPC,而不是局部调度策略。这一章当前的目录是:4.1 launch_server.py 与 http_server.py 的入口分层4.2 TokenizerManager、Scheduler 与 DetokenizerManager 的职责边界4.3 Process、rank、port 与 IPC 拓扑4.4 Tensor Parallelism 执行路径
叶王 © 2013-2026 版权所有。如果本文档对你有所帮助,可以请作者喝饮料。