API 表面与协议集成#

这章解决什么问题#

这一章解决的是“调用方到底通过哪些表面进入 SGLang，以及这些表面怎样回到同一条 runtime path”。如果不单独讲这一层，容易把 OpenAI-compatible API、native APIs、offline engine 和 frontend language 当成互相独立的产品，而不是同一套系统暴露出的不同入口。

对工程读者来说，这个问题很实际。因为你在排查行为差异、设计接口迁移方案，或者把某条业务流从 OpenAI 托管迁到自托管时，真正关心的不是“这个接口像不像”，而是“它最后落到同一套 runtime 了吗”。

为什么要把协议表面单独拎出来#

从官方 docs 可以看到，SGLang 明确把 OpenAI-compatible APIs、native APIs 和 offline engine 分开写。docs/basic_usage/openai_api.rst 聚合的是 OpenAI-compatible usage；docs/basic_usage/native_api.ipynb 则罗列 /generate、/server_info、/flush_cache、/tokenize、/detokenize 等 native endpoints；docs/basic_usage/offline_engine_api.ipynb 则直接讨论不经过 HTTP server 的 inference engine。

这说明协议表面本身就是系统的一层设计，而不是文档编排巧合。SGLang 一方面希望让调用方能平滑迁移到 OpenAI-compatible 表面，另一方面又保留自己的 native surface 和 offline engine path，让内部能力不被单一协议形状限制住。

OpenAI-compatible API 在这套系统里的位置#

OpenAI-compatible API 的价值在于降低迁移成本。官方 openai_api_completions.ipynb 和相关 basic usage 文档都在强调这一点：你可以用接近 OpenAI 的请求格式对接本地模型服务。对于多数应用接入者来说，这是最容易上手的一层。

但从运行时角度看，重要的不是“长得像 OpenAI”，而是它最终怎样落进 http_server.py 和 TokenizerManager.generate_request(...) 这条路径。也正因为如此，OpenAI-compatible 层更适合作为“协议适配面”来理解，而不是当作独立 runtime。

下面这张图解决的是“不同表面到底怎样收敛到同一条 runtime path”。相比段落说明，它更适合把 OpenAI-compatible、native API、offline engine 和 frontend language 并列出来，再看它们怎样回到共享执行层。

flowchart LR
    A["Frontend language\npython/sglang/lang/api.py"] --> E["Runtime / Engine surface"]
    B["OpenAI-compatible APIs\ndocs/basic_usage/openai_api.rst"] --> F["http_server.py routes"]
    C["Native APIs\ndocs/basic_usage/native_api.ipynb"] --> F
    D["Offline Engine\ndocs/basic_usage/offline_engine_api.ipynb"] --> E
    E --> G["TokenizerManager"]
    F --> G
    G --> H["Scheduler -> DetokenizerManager"]

从这张图里，读者应该看懂两件事：第一，OpenAI-compatible 和 native API 的差别主要在协议表面；第二，offline engine 与 frontend language 更像“绕过 HTTP 的程序内部入口”。真正共享的那一层，是进入 runtime 之后的 manager 链路。

native API 和 offline engine 为什么仍然重要#

docs/basic_usage/native_api.ipynb 给出的是 SGLang 原生 server 接口，它包括 /generate、/get_model_info、/server_info、/flush_cache、/encode、/classify 等原生 endpoints。这里的意义在于：当你需要更直接地触达 runtime 能力时，不必经过 OpenAI-compatible 抽象。

docs/basic_usage/offline_engine_api.ipynb 又进一步说明，SGLang 提供 “direct inference engine without the need for an HTTP server”。这条路径特别适合离线 batch inference 或在 Python 里自建 custom server。换句话说，SGLang 不是只有“起一个 HTTP 服务”这一个使用姿势，它还有更贴近程序内部的 engine surface。

什么时候该选哪一种表面#

如果你的目标是“平滑迁移已有 OpenAI 风格调用方”，优先考虑 OpenAI-compatible surface；如果你的目标是“更直接地控制 runtime 行为”，native APIs 往往更合适；如果你的目标是“完全在程序内部集成，不想引入 HTTP server”，offline engine path 更自然。

这类选择并不只是接口偏好，而是架构决策。因为你选的表面不同，后续的调试位置、部署方式、协议适配成本和可观察性入口也会跟着变化。本章之所以单独讨论这些表面，就是为了让读者在进入实现之前先做对入口层决策。

一个更清楚的选择矩阵#

如果你要兼容现有 OpenAI 风格调用方：优先 OpenAI-compatible API
如果你要直接操作服务端原生能力：优先 native APIs
如果你不想经过 HTTP server、而是在程序里直接跑：优先 offline engine
如果你要在 prompt program 里直接组织生成逻辑：优先 frontend language / Runtime / Engine

把这几种表面明确区分开，对“这本书像不像一本书”也很重要。因为优秀技术书不会只把功能列出来，而是会帮助读者在面对真实选择时知道“该从哪一个入口开始”。

一个更接近真实项目的决策方式#

如果你正在做一个已经用 OpenAI 风格接口写成的应用，最合理的迁移起点通常不是重写业务层，而是优先让 OpenAI-compatible surface 工作，再逐步决定哪些场景值得下沉到 native API 或 offline engine。反过来，如果你一开始就是在内部服务里直接嵌 runtime，则从 offline engine 或 frontend language 出发往往更自然。

这类决策并不神秘，但需要被明确说出来。因为技术书真正有价值的地方，往往不是告诉你“系统支持哪些表面”，而是帮助你在不同表面之间做出更清晰的工程选择。

这些表面最终怎样与 runtime 对齐#

虽然三类表面看起来不同，但从前面章节建立的主线看，它们都在朝同一个方向收敛：要么直接进入 runtime endpoint / engine，要么通过 HTTP server 进入 TokenizerManager -> Scheduler -> DetokenizerManager 链路。区别主要在于调用协议、封装层次和附带约束，而不是底层目标完全不同。

这也是为什么本章放在结构化生成之后讲更合理。结构化生成说明了“输出怎样被约束”，而 API / protocol integration 说明“这些约束与请求怎样被送进来”。两者结合起来，你才能同时看清“输入表面”和“输出形状”。

一个更具体的接口选择案例#

假设你有三种不同任务。第一种是“把现有 OpenAI 客户端尽快迁到本地模型服务”，这时最自然的起点通常是 OpenAI-compatible surface。第二种是“服务端运维或平台团队要直接操作 /generate、/flush_cache、/server_info 这类能力”，这时 native API 更直接。第三种是“在 Python 进程内构造一条离线推理流水线”，这时 offline engine 通常比起 HTTP server 更合适。

这个例子看起来简单，但它实际上在训练读者做一件很重要的事：不要把所有接口都当成功能重复，而要把它们理解成不同调用语境下的最短路径。优秀技术书会帮助读者在这些选择点上形成判断，而不是只把接口清单列出来。

本章对应哪些代码路径#

这一章最重要的锚点包括 docs/basic_usage/openai_api.rst、docs/basic_usage/native_api.ipynb、docs/basic_usage/offline_engine_api.ipynb、python/sglang/launch_server.py、python/sglang/srt/entrypoints/http_server.py 以及 python/sglang/lang/api.py。

要继续追具体入口，最直接的阅读顺序是：先看 OpenAI-compatible 和 native / offline 文档分别提供什么接口，再回到 launch_server.py、http_server.py 和 lang/api.py，确认这些外部表面最终怎样映射到 runtime。这样读下来，协议表面和内部主链路之间的关系会更稳定。

调试这一层时最容易犯的错#

协议表面一出问题，很多人会立刻怀疑“是不是 runtime 有 bug”。但对这类问题，更稳的调试顺序是：先确认自己用的是哪一种 surface，再确认这层 surface 的参数和协议语义是否被正确翻译成内部请求对象，最后才回头检查 runtime。否则你很容易在 Scheduler 或 ModelRunner 里找半天，问题其实只是在入口层参数映射上。

小结#

这一章真正想说明的是：SGLang 对外并不是“只有一种 API”。它同时提供 OpenAI-compatible surface、native server APIs 和 offline engine path，而这些表面之所以能共存，是因为它们最终都能被折叠回一套共享 runtime。理解了这一点，后面无论你从协议迁移、服务封装还是内部集成角度看 SGLang，都会更清楚它为什么不是单一路径产品。