多模态与扩展表面：结构化结果在不同输入形态下的约束#

这章解决什么问题#

如果这一整节只围绕文本生成来讲，读者会很自然地把结构化结果理解成“只在文本模型和 chat/completions 场景里重要”。但从上游 docs 看，SGLang 还有 embeddings、vision、多模态输入、音频转录、甚至 diffusion 侧的 OpenAI-compatible surface。这样一来，结构化结果和接口表面的问题就不再只是文本系统的问题。

这一章的任务，就是把这种“表面变体”明确补出来，让这一整节更像一本厚书，而不是只对单一输入形态成立。

为什么这件事重要#

一旦输入从纯文本扩展到图像、视频、音频或更复杂的 server surface，调用方更需要稳定的结果结构。因为多模态任务的输入本身已经复杂，如果输出仍然完全自由，系统集成成本会更高。也就是说，多模态不是把结构化结果削弱了，反而更需要它。

从 docs 可以看出什么#

docs/supported_models/text_generation/multimodal_language_models.md、docs/basic_usage/openai_api_vision.ipynb、音频转录相关 OpenAI-compatible endpoint 文档，都说明 SGLang 对外表面并不局限于纯文本。这意味着本节前面讲的 surface 选择、structured outputs、parser 与 result 回路，都应该被理解成一种更广的接口设计思路，而不是只服务某一类文本请求。

本章对应哪些代码路径#

这一章的锚点主要包括 docs/supported_models/text_generation/multimodal_language_models.md、docs/basic_usage/openai_api_vision.ipynb、相关 OpenAI-compatible 文档，以及扩展表面中涉及的 response_format 与 native / HTTP 接口路径。

小结#

把这一层补进来后，结构化生成与 API 这一大节就更接近一本完整技术书该有的视野：它讲的不是某一种调用习惯，而是一套可以跨输入形态复用的接口与结果设计思路。