vLLM Quickstart: Servicio de LLM de alto rendimiento - en 2026
Inferencia rápida de LLM con la API de OpenAI
vLLM es un motor de inferencia y servicio de alto rendimiento y eficiente en memoria para Modelos de Lenguaje Grandes (LLM), desarrollado por el Laboratorio de Computación Sky de la Universidad de California, Berkeley.