多模态与扩展表面:结构化结果在不同输入形态下的约束#
这章解决什么问题#
如果这一整节只围绕文本生成来讲,读者会很自然地把结构化结果理解成“只在文本模型和 chat/completions 场景里重要”。但从上游 docs 看,SGLang 还有 embeddings、vision、多模态输入、音频转录、甚至 diffusion 侧的 OpenAI-compatible surface。这样一来,结构化结果和接口表面的问题就不再只是文本系统的问题。
这一章的任务,就是把这种“表面变体”明确补出来,让这一整节更像一本厚书,而不是只对单一输入形态成立。
为什么这件事重要#
一旦输入从纯文本扩展到图像、视频、音频或更复杂的 server surface,调用方更需要稳定的结果结构。因为多模态任务的输入本身已经复杂,如果输出仍然完全自由,系统集成成本会更高。也就是说,多模态不是把结构化结果削弱了,反而更需要它。
从 docs 可以看出什么#
docs/supported_models/text_generation/multimodal_language_models.md、docs/basic_usage/openai_api_vision.ipynb、音频转录相关 OpenAI-compatible endpoint 文档,都说明 SGLang 对外表面并不局限于纯文本。这意味着本节前面讲的 surface 选择、structured outputs、parser 与 result 回路,都应该被理解成一种更广的接口设计思路,而不是只服务某一类文本请求。
本章对应哪些代码路径#
这一章的锚点主要包括 docs/supported_models/text_generation/multimodal_language_models.md、docs/basic_usage/openai_api_vision.ipynb、相关 OpenAI-compatible 文档,以及扩展表面中涉及的 response_format 与 native / HTTP 接口路径。
小结#
把这一层补进来后,结构化生成与 API 这一大节就更接近一本完整技术书该有的视野:它讲的不是某一种调用习惯,而是一套可以跨输入形态复用的接口与结果设计思路。
叶王 © 2013-2026 版权所有。如果本文档对你有所帮助,可以请作者喝饮料。