可观测性: 모니터링, 지표, Prometheus 및 Grafana 가이드

생산 시스템을 위한 메트릭, 대시보드 및 경고 시스템 — Prometheus, Grafana, Kubernetes 및 AI 워크로드.

Page content

관측 가능성은 프로덕션 시스템에서 선택이 아닌 필수입니다.

다음과 같은 시스템을 운영 중이라면:

  • 쿠버네티스 클러스터
  • AI 모델 추론 워크로드
  • GPU 인프라
  • API 및 마이크로서비스
  • 클라우드 네이티브 시스템

로그만으로는 충분하지 않습니다.

메트릭, 경고, 대시보드, 시스템 가시성이 필요합니다.

이 기둥은 다음에 초점을 맞추어 현대적인 관측 가능성 아키텍처를 다룹니다:

  • 프로메테우스 모니터링
  • 그라파나 대시보드
  • 메트릭 수집
  • 경고 시스템
  • 프로덕션 모니터링 패턴

네트워크 장치를 모니터링하고 제어하는 기술 다이어그램


관측 가능성이란 무엇인가요?

관측 가능성은 외부 출력을 통해 시스템의 내부 상태를 이해할 수 있는 능력을 말합니다.

현대 시스템에서 관측 가능성은 다음과 같이 구성됩니다:

  1. 메트릭 – 정량적 시간 시계열 데이터
  2. 로그 – 이산 이벤트 기록
  3. 트레이스 – 분산 요청 흐름

모니터링은 관측 가능성의 일부입니다.

모니터링은 어떤 문제가 발생했는지 알려줍니다.

관측 가능성은 왜 그런지 이해하는 데 도움을 줍니다.

프로덕션 시스템 — 특히 분산 시스템 — 에서 이러한 구분은 중요합니다.


모니터링 vs 관측 가능성

많은 팀들이 모니터링과 관측 가능성을 혼동합니다.

모니터링 관측 가능성
임계값을 초과할 때 경고 근본 원인 분석을 가능하게 함
사전 정의된 메트릭에 집중 알려지지 않은 장애 모드를 위해 설계됨
반응적 진단적

프로메테우스는 모니터링 시스템입니다.

그라파나는 시각화 레이어입니다.

둘은 많은 관측 가능성 스택의 뼈대를 형성합니다.


프로메테우스 모니터링

프로메테우스는 클라우드 네이티브 시스템에서 메트릭 수집의 표준입니다.

프로메테우스는 다음과 같은 기능을 제공합니다:

  • Pull 기반 메트릭 수집
  • 시간 시계열 저장
  • PromQL 쿼리
  • 알럿매니저 통합
  • 쿠버네티스용 서비스 발견

쿠버네티스, 마이크로서비스, AI 워크로드를 운영 중이라면 프로메테우스는 이미 스택에 포함되어 있을 가능성이 높습니다.

여기서 시작해 보세요:

프로메테우스로 모니터링하기

이 가이드는 다음을 다룹니다:

  • 프로메테우스 아키텍처
  • 프로메테우스 설치
  • 수집 대상 구성
  • PromQL 쿼리 작성
  • 알럿 규칙 설정
  • 프로덕션 고려사항

프로메테우스는 시작하기가 간단하지만, 대규모로 운영하기는 어렵습니다.


그라파나 대시보드

그라파나는 프로메테우스와 다른 데이터 소스의 시각화 레이어입니다.

그라파나는 다음과 같은 기능을 제공합니다:

  • 실시간 대시보드
  • 경고 시각화
  • 다중 데이터소스 통합
  • 팀 수준 관측 가능성 뷰

시작하는 방법:

우분투에서 그라파나 설치 및 사용하기

그라파나는 원시 메트릭을 운영 인사이트로 변환합니다.

대시보드가 없다면 메트릭은 단순한 숫자일 뿐입니다.


쿠버네티스에서의 관측 가능성

관측 가능성이 없는 쿠버네티스는 운영적 추측에 불과합니다.

프로메테우스는 쿠버네티스와 다음과 같은 방식으로 깊이 통합됩니다:

  • 서비스 발견
  • 포드 수준 메트릭
  • 노드 엑спор터
  • kube-state-metrics

쿠버네티스의 관측 가능성 패턴에는 다음과 같은 것이 포함됩니다:

  • 리소스 사용량 모니터링 (CPU, 메모리, GPU)
  • 포드 재시작에 대한 경고
  • 배포 건강 상태 추적
  • 요청 지연 시간 측정

프로메테우스 + 그라파나는 가장 일반적인 쿠버네티스 모니터링 스택입니다.


AI 및 LLM 인프라에서의 관측 가능성

이 사이트는 AI 시스템에 중점을 두고 있습니다.

관측 가능성은 다음과 같은 것에 매우 중요합니다:

  • LLM 추론 지연 시간 모니터링
  • 토큰 처리량 추적
  • GPU 사용량 측정
  • 모델 실패에 대한 경고
  • 임베딩 파이프라인 모니터링

프로메테우스는 다음과 같은 메트릭을 노출할 수 있습니다:

  • 초당 요청 수
  • 지연 시간 분위수 (P50, P95, P99)
  • GPU 메모리 사용량
  • 대기열 깊이
  • 오류 비율

AI 시스템에서 관측 가능성은 단순히 인프라가 아니라 모델 신뢰성입니다.


메트릭 vs 로그 vs 트레이스

메트릭은 다음과 같은 경우에 이상적입니다:

  • 경고
  • 성능 추세
  • 용량 계획

로그는 다음과 같은 경우에 이상적입니다:

  • 이벤트 디버깅
  • 오류 진단
  • 감사 추적

트레이스는 다음과 같은 경우에 이상적입니다:

  • 분산 요청 분석
  • 마이크로서비스 지연 분석

성숙한 관측 가능성 아키텍처는 세 가지 모두를 결합합니다.

프로메테우스는 메트릭에 초점을 맞춥니다.

그라파나는 메트릭과 로그를 시각화합니다.

향후 확장에는 다음과 같은 기능이 포함될 수 있습니다:

  • 오픈테레메트리
  • 분산 트레이스
  • 로그 집계 시스템

일반적인 모니터링 실수

많은 팀들이 모니터링을 잘못 구현합니다.

일반적인 실수에는 다음과 같은 것이 포함됩니다:

  • 경고 임계값 조정 없음
  • 너무 많은 경고 (경고 피로)
  • 주요 서비스에 대한 대시보드 없음
  • 백그라운드 작업에 대한 모니터링 없음
  • 지연 분위수 무시
  • GPU 워크로드 모니터링 없음

관측 가능성은 단순히 프로메테우스 설치가 아닙니다.

시스템 가시성 전략을 설계하는 것입니다.


프로덕션 관측 가능성 최고 실천 방식

프로덕션 시스템을 구축 중이라면:

  • 평균이 아닌 지연 분위수를 모니터링하세요
  • 오류 비율과 포화 상태를 추적하세요
  • 인프라 및 애플리케이션 메트릭을 모니터링하세요
  • 실행 가능한 경고를 설정하세요
  • 대시보드를 정기적으로 검토하세요
  • 비용 관련 메트릭을 모니터링하세요

관측 가능성은 시스템과 함께 발전해야 합니다.


관측 가능성이 다른 IT 측면과 어떻게 연결되는가

관측 가능성은 다음과 같은 것들과 밀접하게 연결되어 있습니다:

  • 쿠버네티스 운영
  • 클라우드 인프라 (AWS 등)
  • AI 추론 시스템
  • 성능 벤치마킹
  • 하드웨어 사용률

관측 가능성은 모든 프로덕션 시스템의 운영 뼈대입니다.


마무리 생각

프로메테우스와 그라파나는 단순한 도구가 아닙니다.

그들은 현대 인프라의 기초 구성 요소입니다.

시스템을 측정하지 못하면 개선할 수 없습니다.

관측 가능성 기둥은 모니터링 패턴이 진화함에 따라 — 메트릭에서 전체 시스템 내부 검사로 — 확장될 것입니다.

위의 프로메테우스와 그라파나 가이드를 탐색하여 시작해 보세요.