Surveiller l'inférence des LLM en production (2026) : Prometheus & Grafana pour vLLM, TGI, llama.cpp
Surveillez un LLM avec Prometheus et Grafana
L’inference LLM semble être « juste une autre API » — jusqu’à ce que les latences augmentent, les files d’attente se remplissent à nouveau, et que vos GPU atteignent 95 % de mémoire sans explication évidente.