vLLM Quickstart: Serviço de LLM de Alto Desempenho - em 2026
Inferência rápida de LLM com a API da OpenAI
vLLM é um motor de inferência e servidores de alto throughput e eficiência de memória para Modelos de Linguagem Grandes (LLMs), desenvolvido pelo Sky Computing Lab da UC Berkeley.