可观测性: 모니터링, 지표, Prometheus 및 Grafana 가이드
생산 시스템을 위한 메트릭, 대시보드 및 경고 시스템 — Prometheus, Grafana, Kubernetes 및 AI 워크로드.
관측 가능성은 프로덕션 시스템에서 선택이 아닌 필수입니다.
다음과 같은 시스템을 운영 중이라면:
- 쿠버네티스 클러스터
- AI 모델 추론 워크로드
- GPU 인프라
- API 및 마이크로서비스
- 클라우드 네이티브 시스템
로그만으로는 충분하지 않습니다.
메트릭, 경고, 대시보드, 시스템 가시성이 필요합니다.
이 기둥은 다음에 초점을 맞추어 현대적인 관측 가능성 아키텍처를 다룹니다:
- 프로메테우스 모니터링
- 그라파나 대시보드
- 메트릭 수집
- 경고 시스템
- 프로덕션 모니터링 패턴

관측 가능성이란 무엇인가요?
관측 가능성은 외부 출력을 통해 시스템의 내부 상태를 이해할 수 있는 능력을 말합니다.
현대 시스템에서 관측 가능성은 다음과 같이 구성됩니다:
- 메트릭 – 정량적 시간 시계열 데이터
- 로그 – 이산 이벤트 기록
- 트레이스 – 분산 요청 흐름
모니터링은 관측 가능성의 일부입니다.
모니터링은 어떤 문제가 발생했는지 알려줍니다.
관측 가능성은 왜 그런지 이해하는 데 도움을 줍니다.
프로덕션 시스템 — 특히 분산 시스템 — 에서 이러한 구분은 중요합니다.
모니터링 vs 관측 가능성
많은 팀들이 모니터링과 관측 가능성을 혼동합니다.
| 모니터링 | 관측 가능성 |
|---|---|
| 임계값을 초과할 때 경고 | 근본 원인 분석을 가능하게 함 |
| 사전 정의된 메트릭에 집중 | 알려지지 않은 장애 모드를 위해 설계됨 |
| 반응적 | 진단적 |
프로메테우스는 모니터링 시스템입니다.
그라파나는 시각화 레이어입니다.
둘은 많은 관측 가능성 스택의 뼈대를 형성합니다.
프로메테우스 모니터링
프로메테우스는 클라우드 네이티브 시스템에서 메트릭 수집의 표준입니다.
프로메테우스는 다음과 같은 기능을 제공합니다:
- Pull 기반 메트릭 수집
- 시간 시계열 저장
- PromQL 쿼리
- 알럿매니저 통합
- 쿠버네티스용 서비스 발견
쿠버네티스, 마이크로서비스, AI 워크로드를 운영 중이라면 프로메테우스는 이미 스택에 포함되어 있을 가능성이 높습니다.
여기서 시작해 보세요:
이 가이드는 다음을 다룹니다:
- 프로메테우스 아키텍처
- 프로메테우스 설치
- 수집 대상 구성
- PromQL 쿼리 작성
- 알럿 규칙 설정
- 프로덕션 고려사항
프로메테우스는 시작하기가 간단하지만, 대규모로 운영하기는 어렵습니다.
그라파나 대시보드
그라파나는 프로메테우스와 다른 데이터 소스의 시각화 레이어입니다.
그라파나는 다음과 같은 기능을 제공합니다:
- 실시간 대시보드
- 경고 시각화
- 다중 데이터소스 통합
- 팀 수준 관측 가능성 뷰
시작하는 방법:
그라파나는 원시 메트릭을 운영 인사이트로 변환합니다.
대시보드가 없다면 메트릭은 단순한 숫자일 뿐입니다.
쿠버네티스에서의 관측 가능성
관측 가능성이 없는 쿠버네티스는 운영적 추측에 불과합니다.
프로메테우스는 쿠버네티스와 다음과 같은 방식으로 깊이 통합됩니다:
- 서비스 발견
- 포드 수준 메트릭
- 노드 엑спор터
- kube-state-metrics
쿠버네티스의 관측 가능성 패턴에는 다음과 같은 것이 포함됩니다:
- 리소스 사용량 모니터링 (CPU, 메모리, GPU)
- 포드 재시작에 대한 경고
- 배포 건강 상태 추적
- 요청 지연 시간 측정
프로메테우스 + 그라파나는 가장 일반적인 쿠버네티스 모니터링 스택입니다.
AI 및 LLM 인프라에서의 관측 가능성
이 사이트는 AI 시스템에 중점을 두고 있습니다.
관측 가능성은 다음과 같은 것에 매우 중요합니다:
- LLM 추론 지연 시간 모니터링
- 토큰 처리량 추적
- GPU 사용량 측정
- 모델 실패에 대한 경고
- 임베딩 파이프라인 모니터링
프로메테우스는 다음과 같은 메트릭을 노출할 수 있습니다:
- 초당 요청 수
- 지연 시간 분위수 (P50, P95, P99)
- GPU 메모리 사용량
- 대기열 깊이
- 오류 비율
AI 시스템에서 관측 가능성은 단순히 인프라가 아니라 모델 신뢰성입니다.
메트릭 vs 로그 vs 트레이스
메트릭은 다음과 같은 경우에 이상적입니다:
- 경고
- 성능 추세
- 용량 계획
로그는 다음과 같은 경우에 이상적입니다:
- 이벤트 디버깅
- 오류 진단
- 감사 추적
트레이스는 다음과 같은 경우에 이상적입니다:
- 분산 요청 분석
- 마이크로서비스 지연 분석
성숙한 관측 가능성 아키텍처는 세 가지 모두를 결합합니다.
프로메테우스는 메트릭에 초점을 맞춥니다.
그라파나는 메트릭과 로그를 시각화합니다.
향후 확장에는 다음과 같은 기능이 포함될 수 있습니다:
- 오픈테레메트리
- 분산 트레이스
- 로그 집계 시스템
일반적인 모니터링 실수
많은 팀들이 모니터링을 잘못 구현합니다.
일반적인 실수에는 다음과 같은 것이 포함됩니다:
- 경고 임계값 조정 없음
- 너무 많은 경고 (경고 피로)
- 주요 서비스에 대한 대시보드 없음
- 백그라운드 작업에 대한 모니터링 없음
- 지연 분위수 무시
- GPU 워크로드 모니터링 없음
관측 가능성은 단순히 프로메테우스 설치가 아닙니다.
시스템 가시성 전략을 설계하는 것입니다.
프로덕션 관측 가능성 최고 실천 방식
프로덕션 시스템을 구축 중이라면:
- 평균이 아닌 지연 분위수를 모니터링하세요
- 오류 비율과 포화 상태를 추적하세요
- 인프라 및 애플리케이션 메트릭을 모니터링하세요
- 실행 가능한 경고를 설정하세요
- 대시보드를 정기적으로 검토하세요
- 비용 관련 메트릭을 모니터링하세요
관측 가능성은 시스템과 함께 발전해야 합니다.
관측 가능성이 다른 IT 측면과 어떻게 연결되는가
관측 가능성은 다음과 같은 것들과 밀접하게 연결되어 있습니다:
- 쿠버네티스 운영
- 클라우드 인프라 (AWS 등)
- AI 추론 시스템
- 성능 벤치마킹
- 하드웨어 사용률
관측 가능성은 모든 프로덕션 시스템의 운영 뼈대입니다.
마무리 생각
프로메테우스와 그라파나는 단순한 도구가 아닙니다.
그들은 현대 인프라의 기초 구성 요소입니다.
시스템을 측정하지 못하면 개선할 수 없습니다.
관측 가능성 기둥은 모니터링 패턴이 진화함에 따라 — 메트릭에서 전체 시스템 내부 검사로 — 확장될 것입니다.
위의 프로메테우스와 그라파나 가이드를 탐색하여 시작해 보세요.