Inicio rápido de SGLang: instalar, configurar y servir modelos LLM a través de la API de OpenAI.
Sirva modelos abiertos rápidamente con SGLang.
SGLang es un marco de servicio de alto rendimiento para grandes modelos de lenguaje y modelos multimodales, diseñado para ofrecer inferencia de baja latencia y alto rendimiento en todo, desde una sola GPU hasta clústeres distribuidos.