공식 문서#

Prometheus#

자료링크설명
Prometheus 공식 문서https://prometheus.io/docs/설정, PromQL, 운영 가이드
PromQL 참조https://prometheus.io/docs/prometheus/latest/querying/basics/쿼리 언어 상세
Alerting Ruleshttps://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/알림 규칙 작성

Grafana#

자료링크설명
Grafana 공식 문서https://grafana.com/docs/grafana/latest/대시보드, 패널 설정
Loki 문서https://grafana.com/docs/loki/latest/로그 수집/쿼리
Tempo 문서https://grafana.com/docs/tempo/latest/분산 추적

OpenTelemetry#

자료링크설명
OpenTelemetry 공식https://opentelemetry.io/docs/개념, SDK, Collector
Java 계측https://opentelemetry.io/docs/languages/java/Java 자동/수동 계측
Semantic Conventionshttps://opentelemetry.io/docs/concepts/semantic-conventions/표준화된 속성 이름

도서#

필수#

도서저자내용
Site Reliability EngineeringGoogle SRE TeamSRE 원칙, 황금 신호, SLO
Observability EngineeringCharity Majors, Liz Fong-Jones현대적 관측성 개념
The SRE WorkbookGoogle SRE TeamSRE 실전 적용

권장#

도서저자내용
Prometheus: Up & RunningBrian BrazilPrometheus 상세 가이드
Distributed Tracing in PracticeAustin Parker 외분산 추적 심화
Database Reliability EngineeringLaine Campbell, Charity MajorsDB 관측성

블로그 & 아티클#

Prometheus/Grafana#

SRE/Observability#


영상#

컨퍼런스#

영상링크내용
PromConhttps://www.youtube.com/@PrometheusIoPrometheus 컨퍼런스
GrafanaConhttps://www.youtube.com/@GrafanaGrafana 컨퍼런스
KubeConhttps://www.youtube.com/@caborggKubernetes, 관측성 세션

튜토리얼#


온라인 코스#

코스플랫폼설명
Prometheus & GrafanaUdemy실습 중심
Site Reliability EngineeringCourseraGoogle의 SRE 코스
Observability with OpenTelemetryLinux FoundationOTel 입문

커뮤니티#

Slack#

GitHub#

프로젝트링크
Prometheushttps://github.com/prometheus/prometheus
Grafanahttps://github.com/grafana/grafana
Lokihttps://github.com/grafana/loki
Tempohttps://github.com/grafana/tempo
OpenTelemetryhttps://github.com/open-telemetry

대시보드 & 규칙#

Grafana 대시보드#

ID이름용도
1860Node Exporter Full서버 모니터링
3662Prometheus StatsPrometheus 자체 모니터링
4701JVM MicrometerSpring Boot JVM
7362MySQL OverviewMySQL 모니터링
7587PostgreSQLPostgreSQL 모니터링
11074Kafka ExporterKafka 모니터링

https://grafana.com/grafana/dashboards/ 에서 검색 가능

Alerting Rules#


도구#

테스트 & 검증#

도구용도
promtoolPrometheus 설정/규칙 검증
amtoolAlertmanager 설정 검증
logcliLoki CLI 쿼리 도구

시뮬레이션#

도구용도
prometheus-fake-exporter가짜 메트릭 생성
heyHTTP 부하 테스트
k6부하 테스트 + 메트릭

인증#

인증주최내용
CKA/CKADCNCFKubernetes (Prometheus 연동)
Prometheus Certified AssociateCNCFPrometheus 공식 인증 (2024~)
Grafana AssociateGrafana LabsGrafana 기초