Machine Learning 学习笔记

    • 博客
    • 公众号
    • Github
    • 微博
    • 知乎

      • HuggingFace
          • LM
            • AI Agent
            • LLM
            • RAG
            • 教程
            • Stable Diffusion
          • Ml
                • LLM
                    • llama.cpp
                • 第四部分 书籍📚
                    • 进阶

                • 微信

                第四章 运行时架构


                • 微信

                第四章 运行时架构#

                这一部分不再只问“请求怎样走”,而是回答“这些边界为什么要这样切”。重点会落在 entrypoints、manager、worker、rank、port 和 IPC,而不是局部调度策略。

                这一章当前的目录是:

                • 4.1 launch_server.py 与 http_server.py 的入口分层
                • 4.2 TokenizerManager、Scheduler 与 DetokenizerManager 的职责边界
                • 4.3 Process、rank、port 与 IPC 拓扑
                • 4.4 Tensor Parallelism 执行路径
                Backward 3.5 Embedding 与 Reranking 路径 4.1 `launch_server.py` 与 `http_server.py` 的入口分层 Forward

                本文访问量 次

                本站总访问量 次

                本站总访客数 人

                叶王 © 2013-2026 版权所有。如果本文档对你有所帮助,可以请作者喝饮料。


                • 微信