Como Construir uma Página de Estado em Que os Clientes Realmente Confiam
A maioria das páginas de estado existe. Poucas delas são fiáveis. Uma página que está sempre verde durante interrupções é pior do que não ter página, porque ensina os clientes a deixar de a consultar. Uma página de estado em que se confia tem quatro propriedades: é honesta sobre o que está avariado, é rápida a admitir incidentes, define cuidadosamente o âmbito do impacto e responde à pergunta «isto está a afetar-me?» sem obrigar o leitor a procurar. Este guia cobre como conceber uma.
O que os clientes realmente querem de uma página de estado
Duas perguntas impulsionam cada visita a uma página de estado. Os clientes querem saber se aquilo que lhes importa está avariado e se alguém reparou. Tudo o resto é decoração.
Se a página responder a ambas as perguntas num primeiro olhar, os clientes confiam nela e deixam de telefonar para o apoio. Se não responder a nenhuma, cada incidente produz cinco bilhetes de apoio adicionais e uma perda lenta de credibilidade. O design visual importa menos do que a estrutura do que é mostrado acima da dobra.
As quatro propriedades de uma página fidedigna
Quatro propriedades separam uma página de estado útil de uma de vaidade. Acerte nas quatro e os clientes confiarão na página durante um incidente real.
- Honestidade. Se algo está avariado, mostra-se como avariado. Se ainda não sabe, a página diz que está em investigação. Verde durante um incidente real destrói a confiança para sempre.
- Velocidade. Os incidentes são publicados em minutos após a deteção. Uma atualização de estado que se atrasa em relação às interrupções reais em uma hora é tratada como texto de marketing.
- Clareza de âmbito. O cliente consegue saber, em segundos, se o incidente afeta aquilo que usa. Região, área do produto e gravidade são as três dimensões a rotular.
- Linguagem simples. As atualizações são escritas no mesmo tom que usaria para explicar o incidente a um amigo, não em prosa corporativa na voz passiva.
Atualizações de incidentes que funcionam
A maioria dos modelos de página de estado assume por defeito um tom passivo e evasivo. «Estamos a investigar relatos de latência elevada.» Isto soa a desvio. O padrão que cria confiança é o inverso: nomear o que está avariado, nomear o impacto no utilizador, nomear o que está a ser feito a respeito.
Uma boa primeira atualização parece-se com: «Os inícios de sessão estão a falhar para cerca de 30% dos clientes nas regiões da UE. O nosso failover de base de dados está em curso, ETA 10 minutos.» Uma boa resolução parece-se com: «Os inícios de sessão estão restabelecidos. A causa raiz foi um script de failover bloqueado. Adicionámos um watchdog para que isto não possa voltar a estagnar silenciosamente.» Ambas são curtas. Ambas nomeiam impacto, ação e seguimento.
Definir corretamente o âmbito do impacto
Uma única página de estado global é a abstração errada assim que tem mais do que uma linha de produto ou região. O cliente com uma implementação apenas nos EUA não se importa que a sua região na UE tenha latência elevada.
- Divida a sua página por componente: a API, o painel, ingestão, faturação, etc. Mostre o estado por componente, não um único indicador global.
- Adicione uma dimensão de região ou ambiente onde for aplicável. Marque explicitamente a região afetada durante os incidentes.
- Mostre os últimos 90 dias de incidentes abaixo do estado em direto. A vista histórica é o que os visitantes consultam para decidir se é suficientemente fiável para apostar em si.
- Se oferecer, exponha um feed RSS ou JSON para que os clientes interessados possam subscrever nas suas próprias ferramentas.
Manutenção planeada sem o silêncio
A manutenção planeada é a parte mais fácil da página de estado de fazer bem e uma das mais ignoradas. Publique a janela com 48 horas de antecedência, resuma o que será afetado e o que não será, e publique um seguimento a confirmar a conclusão.
Trate a manutenção planeada com o mesmo tom das atualizações de incidentes. Nomeie a janela. Nomeie os serviços afetados. Nomeie o impacto. Uma publicação de manutenção clara antecipa um bilhete de apoio. Uma vaga cria uma dúzia.
A fiabilidade da própria página de estado
Aloje a página de estado num local independente da sua infraestrutura principal. Se a página de estado devolver o mesmo erro de base de dados que o seu painel durante uma indisponibilidade da base de dados, a própria página passa a fazer parte do incidente. Uma página de estado que carrega a partir de um fornecedor distinto, de uma região distinta ou de um CDN estático é a pequena dose de disciplina arquitetural que compensa na primeira vez que tem uma indisponibilidade real. A maioria das equipas descobre isto da forma mais difícil.
Experimente o MonitorAH gratuitamente
Três monitores, alertas em menos de um minuto, sem cartão de crédito. Cubra um site e uma tarefa cron no tempo que demora a ler este parágrafo.
Começar a monitorizar