용어 사전

빠른 이동: A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | R | S | T | U | V | W | Z

A#

Alerting Rules#

Prometheus에서 조건 기반 알림을 정의하는 규칙. 조건 만족 시 Alertmanager로 알림 전송.

Alertmanager#

Prometheus의 알림을 수신하여 그룹화, 억제, 라우팅하는 컴포넌트.

Annotation#

알림 규칙에서 알림 메시지, 설명, 런북 URL 등을 정의하는 메타데이터.

B#

Bucket#

Histogram에서 값의 분포를 측정하는 구간. le (less than or equal) 라벨로 구분. 예: le="0.5"는 0.5초 이하.

C#

Cardinality#

고유한 시계열(time series)의 수. 라벨 조합이 많을수록 카디널리티 증가.

Collector (OTel)#

OpenTelemetry Collector. 관측성 데이터를 수신(Receivers), 처리(Processors), 전송(Exporters)하는 에이전트.

Compaction#

Prometheus TSDB에서 오래된 블록들을 병합하여 저장 효율을 높이는 과정.

Context Propagation#

분산 시스템에서 Trace ID, Span ID를 서비스 간에 전달하는 메커니즘.

Counter#

단조 증가하는 메트릭 타입. 요청 수, 에러 수 등에 사용. rate() 함수로 변화율 계산.

D#

Dashboard#

메트릭을 시각화하여 시스템 상태를 한눈에 파악할 수 있게 하는 화면. Grafana가 대표적.

deriv()#

Gauge 메트릭의 변화율(미분)을 계산하는 PromQL 함수. Counter에는 rate() 사용.

E#

ELK Stack#

Elasticsearch, Logstash, Kibana의 조합. 로그 수집, 저장, 시각화를 위한 스택.

Error Budget#

SLO에서 허용 가능한 에러의 총량. 예: 99.9% SLO면 0.1%가 에러 버짓.

Error Rate#

전체 요청 중 에러(5xx)가 발생한 비율. 에러율 = 에러 수 / 전체 요청 수.

Exemplar#

메트릭과 연결된 트레이스 샘플. 메트릭에서 관련 트레이스로 직접 이동 가능.

Exporter#

애플리케이션/시스템의 메트릭을 Prometheus 형식으로 노출하는 컴포넌트.

F#

Federation#

Prometheus 인스턴스들을 계층적으로 연결하여 글로벌 뷰를 제공하는 확장 방식.

Filebeat#

Elastic 스택의 경량 로그 수집기. 로그 파일을 읽어 Logstash나 Elasticsearch로 전송.

Firing#

알림이 발동된 상태. for 시간 동안 조건이 지속되면 Pending에서 Firing으로 전환.

Four Golden Signals#

Google SRE가 제시한 4대 핵심 지표: Latency, Traffic, Errors, Saturation.

G#

Gauge#

현재 값을 나타내는 메트릭 타입. 증가/감소 가능. CPU 사용률, 온도 등에 사용.

Grafana#

오픈소스 데이터 시각화 및 모니터링 도구. Prometheus, Loki, Tempo 등과 통합.

Grouping#

Alertmanager에서 동일한 유형의 알림들을 하나로 묶어 알림 피로를 줄이는 기능.

H#

Head Block#

Prometheus TSDB에서 최근 2시간 데이터를 메모리에 저장하는 블록.

Histogram#

값의 분포를 버킷으로 측정하는 메트릭 타입. 응답시간 분포 측정에 사용. histogram_quantile()로 백분위 계산.

histogram_quantile()#

Histogram 버킷 데이터에서 백분위(P50, P95, P99 등)를 계산하는 PromQL 함수.

I#

increase()#

Counter 메트릭의 시간 범위 내 총 증가량을 계산하는 PromQL 함수. 기간별 합계에 사용.

Inhibition#

Alertmanager에서 특정 알림이 발생했을 때 관련 알림을 억제하는 기능.

Instant Vector#

PromQL에서 특정 시점의 시계열 집합. 대시보드에 표시되는 대부분의 숫자.

Instrumentation#

애플리케이션에 관측성 데이터 수집 코드를 추가하는 것. 자동/수동 계측 방식이 있음.

irate()#

마지막 두 샘플만 사용하여 순간 증가율을 계산하는 PromQL 함수.

J#

Jaeger#

CNCF 분산 추적 도구. 마이크로서비스 환경에서 요청 흐름을 추적하고 시각화.

K#

Kibana#

Elastic 스택의 시각화 도구. Elasticsearch 데이터를 대시보드로 표시.

L#

Label#

메트릭에 붙는 키-값 메타데이터. 필터링과 그룹화에 사용.

Latency#

응답 지연시간. Golden Signal 중 하나. P50, P95, P99 등 백분위로 측정.

le (Label)#

Histogram 버킷의 상한값을 나타내는 라벨. “less than or equal"의 약자.

LogQL#

Grafana Loki의 쿼리 언어. PromQL과 유사한 문법.

Logstash#

Elastic 스택의 로그 처리 파이프라인. 로그 수집, 변환, 전송.

Loki#

Grafana의 로그 수집 시스템. 라벨 기반 인덱싱으로 경량화.

M#

MeterRegistry#

Micrometer에서 메트릭을 등록하고 관리하는 중앙 레지스트리.

Micrometer#

JVM 애플리케이션을 위한 메트릭 파사드. Prometheus, Datadog 등 다양한 백엔드 지원.

Mimir#

Grafana Labs의 장기 메트릭 저장소. Cortex의 후속 프로젝트.

N#

Native Histogram#

Prometheus 2.40+에서 도입된 자동 버킷 관리 히스토그램. 버킷 설계 문제 해결.

O#

Offset#

PromQL에서 현재 시점이 아닌 과거 시점의 데이터를 조회하는 수정자. 예: offset 1h.

OpenTelemetry (OTel)#

메트릭, 로그, 트레이스를 위한 벤더 중립적 관측성 표준 프레임워크.

OTLP#

OpenTelemetry Protocol. 관측성 데이터 전송을 위한 표준 프로토콜.

P#

P50, P95, P99#

백분위수. P99는 전체 요청의 99%가 이 값 이하임을 의미. 응답시간 측정에 주로 사용.

Pending#

알림 조건이 만족되었지만 for 시간이 경과하지 않은 대기 상태.

Percentile (백분위)#

데이터 분포에서 특정 비율 이하에 해당하는 값. P99 = 99%가 이 값 이하.

PromQL#

Prometheus Query Language. 시계열 데이터 조회 및 분석 언어.

Promtail#

Grafana Loki의 로그 수집 에이전트. 로그를 읽어 Loki로 전송.

Pull Model#

Prometheus가 타겟을 찾아가서 메트릭을 수집하는 방식 (Push의 반대).

Push Model#

애플리케이션이 모니터링 시스템으로 메트릭을 전송하는 방식 (Pull의 반대).

Pushgateway#

Prometheus에서 짧은 수명의 배치 작업 메트릭을 임시 저장하는 컴포넌트.

R#

Range Vector#

PromQL에서 시간 범위 내의 값들. [5m] 형식으로 지정. rate(), increase() 등의 입력.

rate()#

Counter의 초당 평균 증가율을 계산하는 PromQL 함수.

Rate Limiting Sampling#

초당 N개까지만 트레이스를 수집하는 샘플링 방식. 트래픽 급증 시 유용.

Receiver#

Alertmanager에서 알림을 수신하여 Slack, PagerDuty 등으로 전송하는 설정.

Recording Rules#

복잡한 쿼리를 미리 계산하여 새 메트릭으로 저장하는 Prometheus 규칙.

RED Method#

Rate, Errors, Duration을 측정하는 마이크로서비스 모니터링 방법론.

Relabeling#

Prometheus에서 스크래핑 전후에 라벨을 변환, 추가, 삭제하는 기능.

Remote Write/Read#

Prometheus에서 외부 장기 저장소(Thanos, VictoriaMetrics 등)와 데이터를 주고받는 기능.

Root Span#

Trace에서 첫 번째 Span. Parent Span이 없음. 요청의 시작점.

Routing#

Alertmanager에서 알림을 조건에 따라 다른 수신자에게 전달하는 기능.

RPS (Requests Per Second)#

초당 요청 수. 트래픽을 측정하는 기본 지표.

S#

Sampling#

전체 트레이스 중 일부만 저장하는 기법. 비용 최적화 목적.

Saturation#

시스템 리소스의 포화도. Golden Signal 중 하나. CPU, 메모리 사용률 등.

Scalar#

PromQL에서 레이블 없는 단일 숫자 값. 임계값 비교 등에 사용.

Scrape#

Prometheus가 타겟에서 메트릭을 수집하는 행위.

Scrape Interval#

Prometheus가 타겟에서 메트릭을 수집하는 주기. 기본값 15초.

Semantic Conventions#

OpenTelemetry에서 정의한 표준화된 속성 이름 규칙. http.method, db.system 등.

Service Discovery#

Prometheus가 모니터링 대상(타겟)을 자동으로 발견하는 기능. Kubernetes, Consul 등 지원.

Service Level Agreement (SLA)#

서비스 제공자와 사용자 간의 서비스 품질 계약. SLO 위반 시 보상 조건 포함.

Service Level Indicator (SLI)#

서비스 수준을 측정하는 지표. 예: P99 응답시간, 에러율.

Service Level Objective (SLO)#

SLI의 목표값. 예: P99 < 500ms, 가용성 99.9%.

Silencing#

Alertmanager에서 특정 시간 동안 알림을 무시하는 기능. 유지보수 중 사용.

Span#

분산 추적에서 단일 작업 단위. Trace는 여러 Span으로 구성.

Span ID#

개별 Span을 식별하는 고유 ID.

Structured Log#

JSON 등 구조화된 형식의 로그. 필드별 검색과 파싱이 용이.

Summary#

클라이언트에서 백분위를 미리 계산하는 메트릭 타입. 집계 불가로 Histogram 권장.

T#

Tail-based Sampling#

요청 완료 후 에러/느린 요청을 우선 저장하는 샘플링 방식.

Tempo#

Grafana의 분산 추적 백엔드. 대용량 트레이스 저장에 최적화.

Thanos#

Prometheus의 장기 저장소. 오브젝트 스토리지 기반, 글로벌 뷰 제공.

Three Pillars (3요소)#

Observability의 세 기둥: Metrics, Logs, Traces.

Time Series#

시간에 따라 기록된 데이터 포인트의 연속. 메트릭명 + 라벨 조합으로 고유 식별.

Timer#

Micrometer에서 작업 시간을 측정하는 메트릭. Histogram 기반.

Trace#

분산 시스템에서 하나의 요청이 지나가는 전체 경로. 여러 Span으로 구성.

Trace ID#

트레이스를 식별하는 고유 ID. 모든 Span이 동일한 Trace ID를 공유.

Traffic#

시스템이 처리하는 요청량. Golden Signal 중 하나. RPS, 처리량으로 측정.

TSDB (Time Series Database)#

시계열 데이터 저장에 최적화된 데이터베이스. Prometheus 내장 TSDB가 대표적.

U#

USE Method#

Utilization, Saturation, Errors를 측정하는 리소스 모니터링 방법론.

V#

VictoriaMetrics#

고성능 시계열 데이터베이스. Prometheus 호환, 장기 저장소로 사용.

W#

W3C Trace Context#

분산 추적을 위한 HTTP 헤더 표준. traceparent 헤더 사용.

WAL (Write-Ahead Log)#

데이터 손실 방지를 위해 메모리 데이터를 디스크에 먼저 기록하는 로그.

Z#

Zipkin#

오픈소스 분산 추적 시스템. 가볍고 설치가 쉬움.