Observabilité en production : guide de monitoring, de métriques, de Prometheus et de Grafana (2026)

Métriques, tableaux de bord, journaux et alertes pour les systèmes de production — Prometheus, Grafana, Kubernetes et charges de travail d'IA.

Sommaire

Observabilité est le fondement des systèmes de production fiables.

Sans métriques, tableaux de bord et alertes, les clusters Kubernetes dérivent, les charges de travail d’IA échouent silencieusement et les régressions de latence passent inaperçues jusqu’à ce que les utilisateurs se plaignent.

Si vous utilisez :

  • des clusters Kubernetes
  • des charges de travail d’inférence IA et LLM
  • une infrastructure GPU
  • des API et microservices
  • des systèmes natifs du cloud

Vous avez besoin de plus que de simples journaux non structurés sur lesquels vous pouvez seulement utiliser grep.

Vous avez besoin de surveillance, d’alertes et de visibilité système de niveau production — métriques, tableaux de bord et (là où cela convient) journaux structurés et traces.

Ce pilier relie les concepts à des guides concrets : Prometheus et Grafana, journalisation d’application en Go, visibilité Kubernetes et GPU, et modèles d’observabilité pour les charges de travail d’IA et LLM.

Ce que ce guide couvre

Ce pilier d’observabilité relie les concepts fondamentaux de surveillance à une mise en œuvre réelle en production :

  • Architecture des métriques Prometheus
  • Tableaux de bord et alertes Grafana
  • Journalisation structurée en Go avec log/slog (journaux JSON, corrélation, événements adaptés aux alertes)
  • Modèles d’observabilité Kubernetes
  • Surveillance GPU et matérielle
  • Observabilité pour les systèmes d’IA et LLM
  • Exemples pratiques de surveillance LLM

Commencez par les fondamentaux ci-dessous, puis suivez les liens pour des approfondissements.

Un diagramme technique des appareils réseau à surveiller et contrôler


Qu’est-ce que l’Observabilité ?

L’observabilité est la capacité à comprendre l’état interne d’un système en utilisant ses sorties externes.

Dans les systèmes modernes, l’observabilité se compose de :

  1. Métriques – données chronologiques quantitatives
  2. Journaux – enregistrements d’événements discrets
  3. Traces – flux de requêtes distribuées

La surveillance est un sous-ensemble de l’observabilité.

La surveillance vous indique que quelque chose ne va pas.

L’observabilité vous aide à comprendre pourquoi.

Dans les systèmes de production — en particulier les systèmes distribués — cette distinction est cruciale.


Surveillance vs Observabilité

De nombreuses équipes confondent surveillance et observabilité.

Surveillance Observabilité
Envoie des alertes lorsque des seuils sont dépassés Permet l’analyse des causes racines
Centrée sur des métriques prédéfinies Conçue pour des modes de défaillance inconnus
Réactive Diagnostique

Prometheus est un système de surveillance.

Grafana est une couche de visualisation.

Ensemble, ils constituent la colonne vertébrale de nombreuses piles d’observabilité.


Surveillance avec Prometheus

Prometheus est la norme de facto pour la collecte de métriques dans les systèmes natifs du cloud.

Prometheus fournit :

  • Récupération de métriques par tirage (pull)
  • Stockage de séries temporelles
  • Requêtes PromQL
  • Intégration avec Alertmanager
  • Découverte de services pour Kubernetes

Si vous utilisez Kubernetes, des microservices ou des charges de travail d’IA, Prometheus fait probablement déjà partie de votre pile.

Commencez ici :

Surveillance Prometheus : configuration et meilleures pratiques

Ce guide couvre :

  • Architecture Prometheus
  • Installation de Prometheus
  • Configuration des cibles de récupération (scrape)
  • Écriture de requêtes PromQL
  • Configuration des règles d’alerte
  • Considérations de production

Prometheus est simple pour commencer — mais subtil à exploiter à grande échelle.


Tableaux de bord Grafana

Grafana est la couche de visualisation pour Prometheus et d’autres sources de données.

Grafana permet :

  • Tableaux de bord en temps réel
  • Visualisation des alertes
  • Intégration multi-sources de données
  • Vues d’observabilité au niveau de l’équipe

Pour commencer :

Installation et utilisation de Grafana sur Ubuntu (guide complet)

Grafana transforme les métriques brutes en informations opérationnelles.

Sans tableaux de bord, les métriques ne sont que des chiffres.


Journalisation structurée en Go

Les métriques et les tableaux de bord ne sont utiles que si les signaux que vous émettez sont cohérents et lisibles par machine. Les journaux texte brut s’effondrent dès que vous avez besoin de filtres fiables, d’agrégations, de jointures avec des traces ou de règles d’alerte dérivées des journaux.

Pour les services Go, log/slog (stable depuis Go 1.21) modélise les enregistrements avec le temps, le niveau, le message et les attributs ; JSONHandler fournit un événement interrogeable par ligne ; les gestionnaires sont l’endroit idéal pour la masquage (redaction) et les ajustements de schéma ; et des champs stables tels que request_id, trace_id et span_id relient les journaux au reste de la pile d’observabilité.

Commencez ici :

Journalisation structurée en Go avec slog pour l’observabilité et les alertes

Ce guide examine la configuration orientée production, la discipline de schéma et de cardinalité, la corrélation alignée sur OpenTelemetry, et l’utilisation d’événements structurés comme entrées pour la surveillance et les alertes.


Comment Prometheus et Grafana fonctionnent ensemble

Prometheus collecte et stocke les métriques.

Grafana interroge Prometheus en utilisant PromQL et visualise les résultats.

En production :

  • Prometheus gère l’ingestion et l’évaluation des alertes
  • Alertmanager achemine les alertes
  • Grafana fournit les tableaux de bord et les vues d’alerte
  • Les journaux et traces sont ajoutés pour un diagnostic plus approfondi

Si vous êtes nouveau dans l’observabilité, lisez dans cet ordre :

  1. Prometheus (fondation des métriques)
  2. Grafana (couche de visualisation)
  3. Journalisation structurée en Go avec slog (lorsque votre pile inclut des services Go envoyant des journaux JSON à Loki, Elasticsearch ou des backends similaires)
  4. Modèles de surveillance Kubernetes
  5. Observabilité pour les systèmes LLM

Pour un exemple pratique appliqué aux charges de travail d’inférence LLM, consultez Surveiller l’inférence LLM en production.


Observabilité dans Kubernetes

Kubernetes sans observabilité est de la spéculation opérationnelle.

Prometheus s’intègre profondément avec Kubernetes grâce à :

  • Découverte de services
  • Métriques au niveau des pods
  • Exportateurs de nœuds
  • kube-state-metrics

Les modèles d’observabilité pour Kubernetes incluent :

  • Surveillance de l’utilisation des ressources (CPU, mémoire, GPU). Pour la visibilité GPU au niveau des nœuds et les outils de débogage (nvidia-smi, nvtop, nvitop, Moniteur système KDE Plasma), consultez Applications de surveillance GPU sous Linux / Ubuntu.
  • Alertes sur les redémarrages de pods
  • Suivi de la santé des déploiements
  • Mesure de la latence des requêtes

Prometheus + Grafana reste la pile de surveillance Kubernetes la plus courante.


Observabilité pour les systèmes d’IA et LLM

La surveillance d’API traditionnelle ne suffit pas pour les charges de travail LLM.

Les systèmes LLM échouent de différentes manières :

  • Les files d’attente se remplissent silencieusement
  • La mémoire GPU sature avant les pics CPU
  • Le temps jusqu’au premier token se dégrade avant que la latence totale n’explose
  • Le débit de tokens s’effondre alors que le taux de requêtes semble stable

Si vous utilisez des serveurs d’inférence comme Triton, vLLM ou TGI, vous devez surveiller :

  • Le temps jusqu’au premier token (TTFT)
  • Les percentiles de latence bout en bout
  • Le débit de tokens (entrée/sortie)
  • La profondeur de la file d’attente et le comportement de regrouppage (batching)
  • L’utilisation GPU et la pression sur la mémoire GPU
  • La latence de récupération et d’appel d’outils
  • Le coût par requête (économie pilotée par les tokens)

Pour un guide pratique et concret utilisant des tableaux de bord Prometheus et Grafana, consultez Surveiller l’inférence LLM en production.

Plongez plus en profondeur ici : Observabilité pour les systèmes LLM : métriques, traces, journaux et tests en production

Ce guide couvre :

  • Métriques Prometheus pour l’inférence LLM
  • Conventions sémantiques GenAI d’OpenTelemetry
  • Traçage avec Jaeger et Tempo
  • Surveillance GPU avec l’exportateur DCGM
  • Architecture de journaux Loki / ELK
  • Profilage et tests synthétiques
  • Conception de SLO pour les systèmes LLM
  • Comparaison complète des outils (Prometheus, Grafana, OTel, plateformes APM)

Si vous déployez une infrastructure LLM en production, lisez ce guide.


Métriques vs Journaux vs Traces

Les métriques sont idéales pour :

  • Les alertes
  • Les tendances de performance
  • La planification de capacité

Les journaux sont idéaux pour :

  • Le débogage d’événements
  • Le diagnostic d’erreurs
  • Les pistes d’audit

Les traces sont idéales pour :

  • L’analyse de requêtes distribuées
  • La décomposition de la latence des microservices

Une architecture d’observabilité mature combine les trois.

Prometheus se concentre sur les métriques.

Grafana visualise les métriques et sert souvent de porte d’entrée aux backends de journaux (par exemple Loki) aux côtés de Prometheus.

Pour émettre des journaux d’application structurés et interrogeables depuis Go avant qu’ils n’atteignent votre pipeline de journalisation, consultez la section Journalisation structurée en Go ci-dessus.

Sur ce site, Observabilité pour les systèmes LLM examine déjà les métriques, les traces et l’architecture de journalisation pour les piles d’inférence. Des guides supplémentaires axés sur la configuration OpenTelemetry, l’analyse de traces et les modèles d’agrégation de journaux en dehors du contexte LLM pourraient suivre.


Erreurs courantes de surveillance

De nombreuses équipes implémentent la surveillance de manière incorrecte.

Les erreurs courantes incluent :

  • Aucun réglage des seuils d’alerte
  • Trop d’alertes (fatigue d’alerte)
  • Aucun tableau de bord pour les services clés
  • Aucune surveillance pour les jobs en arrière-plan
  • Ignorer les percentiles de latence
  • Ne pas surveiller les charges de travail GPU

L’observabilité ne consiste pas seulement à installer Prometheus.

Il s’agit de concevoir une stratégie de visibilité système.


Meilleures pratiques d’observabilité en production

Si vous construisez des systèmes de production :

  • Surveillez les percentiles de latence, pas les moyennes
  • Suivez les taux d’erreur et la saturation
  • Surveillez les métriques d’infrastructure et d’application
  • Définissez des alertes actionnables
  • Examinez régulièrement les tableaux de bord
  • Surveillez les métriques liées aux coûts

L’observabilité doit évoluer avec votre système.


Comment l’observabilité se connecte aux autres aspects IT

L’observabilité est étroitement liée aux opérations Kubernetes, à l’infrastructure cloud, à l’inférence d’IA, au benchmarking de performance et à l’utilisation du matériel. Elle constitue la colonne vertébrale opérationnelle des systèmes de production que vous comptez faire fonctionner pendant des mois ou des années, et non pas seulement des clusters de démonstration.


Guides de ce cluster

Guide Ce que vous obtenez
Surveillance Prometheus Récupération, PromQL, alertes, notes de production
Grafana sur Ubuntu Installation, sources de données, tableaux de bord
Journalisation structurée en Go (slog) Journaux JSON, corrélation, masquage, signaux basés sur les journaux
Surveillance GPU sous Linux / Ubuntu nvidia-smi, nvtop, nvitop, outils de bureau
Surveiller l’inférence LLM Prometheus + Grafana appliqués à l’inférence
Observabilité pour les systèmes LLM Métriques, traces, journaux, GPU, SLO, comparaison d’outils

Pensées finales

Prometheus et Grafana ne sont pas des accessoires jetables ; ils font partie de la façon dont les équipes modernes répondent à « le système est-il sain ? » et « quoi est cassé ? » en production.

Si vous ne pouvez pas mesurer votre système, vous ne pouvez pas l’améliorer de manière fiable.

Utilisez l’ordre de lecture sous Comment Prometheus et Grafana fonctionnent ensemble si vous êtes nouveau dans la pile, puis choisissez des guides dans le tableau ci-dessus pour votre charge de travail (Kubernetes, GPU, services Go ou inférence LLM).