2026年におけるウェブサイト稼働監視の仕組み
稼働率99.99%を達成するサービスは、年間で53分未満しかオフラインになりません。99.9%に下がると、8時間以上の損失となります。稼働監視は、そうしたダウンタイムが発生した瞬間に検知する小さなインフラです。本ガイドでは、その仕組み、何を監視すべきか、どのくらいの頻度でチェックすべきか、そして有用なツールを単なるノイズに変えてしまう間違いについて説明します。
稼働監視ツールが実際に行うこと
稼働監視ツールは小さなループを実行します。公衆インターネット上のどこかにあるサーバーから、指定したターゲットにリクエストを送信します。レスポンス、ステータスコード、ラウンドトリップにかかった時間を記録します。そして指定した間隔だけ待機し、再度試行します。
プローブが意図的に自社インフラの外部に存在しています。自社ネットワーク内部から監視した場合、内部からは正常に見えても実際のユーザーに対して機能していない障害を検知できません。これがシンセティック監視(外部プローバー)とリアルユーザーモニタリング(実際の訪問者からのテレメトリ)の違いです。多くのチームは両方を併用しています。稼働監視はシンセティック側にあたります。
実際に監視できるもの
最新の稼働監視ツールはHTTPだけにとどまりません。市場で目にする9種類のプローブは、それぞれ少しずつ異なる問いに答えます。
- HTTP は任意のURLのステータスコードとレスポンスタイムを返します。
- Ping (ICMP) はホストがネットワークレベルで応答するかをチェックします。
- SSL は証明書の残り有効日数を確認します。
- DNS はA、AAAA、MX、TXT、NSレコードが期待される値に解決されるかを検証します。
- TCPポート は指定のポートでサービスがリッスンしているか、または閉じているはずのポートが突然開いていないかをチェックします。
- WHOIS はドメイン名の登録有効期限を監視します。
- Blacklist は送信元IPがSpamhaus、SORBS、または同様のリストに掲載されていないかを確認します。
- Heartbeat は関係を反転させます。ジョブ側からモニターに通知を送り、それが止まったときにアラートを受け取ります。
チェック頻度をどう設定するか
チェック頻度は精度とノイズのトレードオフです。間隔を短くすれば短時間の障害を捉えやすくなりますが、一時的なネットワークの揺らぎによる誤検知も増えます。間隔を長くすればノイズは平準化されますが、エラーバジェットには影響する短時間の障害を見逃すことになります。
実用的なデフォルト設定は、重要なサービスのHTTPとpingには60秒、優先度の低いページには5分、SSLには15分、WHOISには1時間です。ダウンタイムが1分あたりの金額として明確に損失となるサービスに限り、30秒まで短縮してください。30秒未満にしても結果が改善されることはほとんどなく、むしろアラート疲れを引き起こします。
ノイズのないアラートルーティング
誰も読まないアラートは、アラートがないよりも悪い状態です。ほとんどのチームには3つのルールで十分対応できます。
- DOWNアラートはデフォルトで単一のチャネルに送信します。理想的にはチームがすでに確認しているチャネル(Slack、Discord、Telegram、メール)です。
- 呼び出しを行う前に、少なくとも3回連続で失敗するというしきい値ルールを使用してください。1回の失敗はノイズです。3回連続はシグナルです。
- 重要なサービスは、署名付きWebhookを介してページャーツール(PagerDuty、Opsgenie)にルーティングしてください。それ以外はすべてチャットにルーティングします。担当者が対応を開始したら、インシデントを確認応答してページャーを停止します。
稼働率プログラムを台無しにするミス
1つ目のミスは、ホームページだけを監視することです。ホームページが動作していても、チェックアウトフローやモバイルアプリが通信するAPIについてはほとんど何もわかりません。売上やサポート負荷にとって最も重要なURLには、個別のHTTPモニターを追加してください。
2つ目のミスは、無言のファンアウトです。すべてのモニターがすべてのチャネルに発火し、各チームメンバーがうるさいチャネルをミュートし、本当のインシデントがミュートされたチャネルに表示されるという事態が起こります。デフォルトルートを1つ定義し、例外を特定の人にルーティングし、四半期ごとにルールを見直してください。
10分でできるスターターセットアップ
ゼロから始める場合、実用的な手順はシンプルです。メインURLに60秒間隔のHTTPモニターを作成します。同じホスト名に30日間の警告期間を設定したSSLモニターを作成します。DOWNをチームチャットにルーティングする通知ルールを1つ作成します。稼働率を気にする外部ユーザーがいる場合はステータスページを追加します。請求、レポート、バックアップを実行するcronジョブにはハートビートを追加します。これで、中央値のオペレーターより一歩先に進んだ状態です。
関連記事
How Much Does Website Downtime Cost? A Practical Calculator
How to calculate the real cost of downtime for your business, with a framework that does not require pretending to be Amazon.
SOC 2 Audit Logging for Monitoring Tools: What Auditors Look For
What SOC 2 auditors actually look for in monitoring tools, what to log, and how to demonstrate the controls that pass the audit.