Início Rápido do vLLM: Servidor de LLM de Alto Desempenho - em 2026
Inferência rápida de LLM com a API da OpenAI
vLLM é um motor de inferência e serviço de alto rendimento e eficiente em memória para Grandes Modelos de Linguagem (LLMs), desenvolvido pelo Laboratório de Computação Sky da UC Berkeley.