2026년 웹사이트 가동 시간 모니터링의 작동 원리
99.99% 가동 시간을 달성하는 서비스는 연간 53분 미만 동안만 오프라인 상태입니다. 99.9%로 떨어지면 8시간 이상을 잃게 됩니다. 가동 시간 모니터링은 그러한 순간을 발생 즉시 포착하는 작지만 중요한 인프라입니다. 이 가이드에서는 작동 원리, 모니터링 대상, 점검 주기, 그리고 유용한 도구를 배경 소음으로 만드는 실수들을 설명합니다.
가동 시간 모니터가 실제로 하는 일
가동 시간 모니터는 작은 루프를 실행합니다. 공용 인터넷의 어딘가에 있는 서버에서 지정한 대상에 요청을 보냅니다. 응답, 상태 코드, 그리고 왕복 소요 시간을 기록합니다. 그런 다음 설정한 간격만큼 대기했다가 다시 시도합니다.
프로브는 의도적으로 인프라 외부에 위치합니다. 자체 네트워크 내부에서 모니터링하면 내부에서는 정상으로 보이지만 실제 사용자에게는 장애로 나타나는 상황을 포착할 수 없습니다. 이것이 바로 합성 모니터링(외부 프로버)과 실사용자 모니터링(실제 방문자로부터의 텔레메트리)의 차이입니다. 대부분의 팀은 두 가지를 모두 운영합니다. 가동 시간 모니터링은 합성 모니터링 쪽입니다.
실제로 모니터링할 수 있는 것들
최신 가동 시간 도구는 HTTP 이상을 다룹니다. 시장에서 볼 수 있는 9가지 프로브 유형은 각각 조금씩 다른 질문에 답합니다.
- HTTP 점검은 모든 URL에 대해 상태 코드와 응답 시간을 반환합니다.
- Ping (ICMP) 점검은 호스트가 네트워크 수준에서 응답하는지 확인합니다.
- SSL 점검은 인증서의 남은 일수를 확인합니다.
- DNS는 A, AAAA, MX, TXT, NS 레코드가 여전히 예상한 값으로 확인되는지 검증합니다.
- TCP port 점검은 서비스가 지정된 포트에서 수신 대기 중인지, 또는 닫혀 있어야 할 포트가 갑자기 열렸는지를 확인합니다.
- WHOIS는 도메인 이름의 등록 만료일을 감시합니다.
- Blacklist 점검은 발송 IP가 Spamhaus, SORBS 또는 유사한 목록에 등재되었는지 확인합니다.
- Heartbeat는 관계를 뒤집습니다. 작업이 모니터에 핑을 보내고, 핑이 중단되면 알림을 받습니다.
얼마나 자주 점검해야 하는가
점검 주기는 정확성과 노이즈 사이의 트레이드오프입니다. 더 빠른 주기는 짧은 장애를 포착하지만 일시적인 네트워크 끊김으로 인한 거짓 양성을 더 많이 발생시킵니다. 더 느린 주기는 노이즈를 완화하지만, 오류 예산에 영향을 주는 짧은 장애를 놓칠 수 있습니다.
실용적인 기본값은 다음과 같습니다. 중요한 서비스의 HTTP 및 ping은 60초, 우선순위가 낮은 페이지는 5분, SSL은 15분, WHOIS는 매시간. 30초로 낮추는 것은 다운타임이 분당 측정 가능한 금전적 비용을 초래하는 서비스에만 적용하세요. 30초 미만으로 내려가는 것은 결과를 거의 개선하지 않으면서 알림 피로를 자주 유발합니다.
노이즈 없는 알림 라우팅
아무도 읽지 않는 알림은 알림이 없는 것보다 더 나쁩니다. 세 가지 규칙이 대부분의 팀에 적용됩니다.
- DOWN 알림은 기본적으로 단일 채널, 이상적으로는 팀이 이미 확인하는 채널(Slack, Discord, Telegram 또는 이메일)로 보내세요.
- 페이지를 보내기 전에 최소 3회 연속 실패라는 임계값 규칙을 사용하세요. 한 번의 실패는 노이즈입니다. 연속 세 번은 신호입니다.
- 중요한 서비스는 서명된 웹훅을 통해 페이징 도구(PagerDuty, Opsgenie)로 라우팅하세요. 나머지는 모두 채팅으로 라우팅하세요. 담당자가 대응에 들어가면 인시던트를 확인 처리하여 페이저를 멈추세요.
가동 시간 프로그램을 망치는 실수들
첫 번째 실수는 홈페이지만 모니터링하는 것입니다. 홈페이지가 정상 작동한다고 해서 결제 흐름이나 모바일 앱이 통신하는 API에 대해 알 수 있는 것은 거의 없습니다. 매출이나 고객 지원 부담에 가장 중요한 URL에 대해 별도의 HTTP 모니터를 추가하세요.
두 번째 실수는 무분별한 알림 확산입니다. 모든 모니터가 모든 채널로 알림을 보내면, 팀원들은 시끄러운 채널을 음소거하게 되고, 결국 실제 사고는 음소거된 채널에 나타납니다. 하나의 기본 라우팅을 정의하고, 예외는 특정 담당자에게 라우팅하며, 분기마다 규칙을 검토하세요.
10분 만에 시작하는 설정
처음부터 시작한다면 실용적인 순서는 짧습니다. 주요 URL에 60초 간격의 HTTP 모니터를 만드세요. 동일한 호스트명에 30일 경고 기간을 둔 SSL 모니터를 만드세요. DOWN 상태를 팀 채팅으로 라우팅하는 알림 규칙 하나를 만드세요. 가동 시간에 관심 있는 외부 사용자가 있다면 상태 페이지를 추가하세요. 결제, 보고서, 백업을 실행하는 cron 작업에 하트비트를 추가하세요. 이제 평균적인 운영자보다 앞서 있는 것입니다.
MonitorAH 무료로 사용해 보세요
모니터 3개, 1분 이내 알림 설정, 신용카드 불필요. 이 문단을 읽는 시간 안에 웹사이트 하나와 cron 작업 하나를 보호할 수 있습니다.
모니터링 시작하기관련 글
How Much Does Website Downtime Cost? A Practical Calculator
How to calculate the real cost of downtime for your business, with a framework that does not require pretending to be Amazon.
SOC 2 Audit Logging for Monitoring Tools: What Auditors Look For
What SOC 2 auditors actually look for in monitoring tools, what to log, and how to demonstrate the controls that pass the audit.