Monitoramento de Inferência de LLM em Produção (2026): Prometheus e Grafana para vLLM, TGI e llama.cpp
Monitorar LLM com Prometheus e Grafana
A inferência de LLM parece ser “apenas outra API” — até que a latência dispare, as filas se acumulem e suas GPUs fiquem com 95% de memória sem uma explicação óbvia.