Sglang

SGLang est un framework de service haute performance pour les grands modèles de langage et les modèles multimodaux, conçu pour fournir une inférence à faible latence et à haut débit sur tout, d’une seule GPU à des clusters distribués.