이 장에서는 서비스 상태를 판단하기 위한 모니터링 구조와 지표를 설계합니다.
OPS 영역에 Prometheus와 Grafana를 구성하고, SVC 서버의 상태 지표를 수집했습니다.
지표는 네트워크 장비가 아닌 서비스 서버(SVC) 기준으로 선정했습니다.
사용자 체감은 네트워크가 아니라,
CPU 사용률, 메모리 상태, 응답 시간과 같은 서비스 동작 상태에서 먼저 드러나기 때문입니다.
모니터링 대상은 단순히 “값을 수집하는 것”이 아니라,
장애 상황에서 운영자가 판단에 사용할 수 있는 지표로 한정했습니다.
이를 통해 수치 변화가 곧바로
“지금 문제가 있는지”, “즉시 조치가 필요한지”를 판단할 수 있도록 구성했습니다.
이후 실습에서는 이 지표들을 기준으로
정상 상태와 비정상 상태를 구분하고,
장애 시나리오별 대응 판단을 진행합니다.


