Características e ciclo de vida de um incidente
- 4 minutos
Como você aprendeu na última unidade, um incidente é uma interrupção de serviço que afeta seus clientes e usuários finais. Os incidentes vêm de várias formas, desde desacelerações de desempenho que frustram os usuários ("lento é o novo down") até falhas no sistema que tornam o serviço ou site completamente indisponível por um período de tempo.
Características de um incidente
Incidentes geralmente são inesperados e parecem ocorrer no pior momento possível (como 2:00 da manhã, ou quando você está profundamente imerso em um projeto importante). É por isso que os incidentes são comumente temidos e evitados, mesmo a ponto de as pessoas às vezes minimizarem o significado de um incidente. Às vezes, a pressão interna é tão grande em uma organização que há uma tentação de rotular incorretamente ou não relatar uma interrupção por medo de repreensão.
No mínimo, incidentes criam trabalho não planejado, e porque você passa a maior parte do tempo fazendo trabalho planejado com uma boa idéia do que você deveria estar fazendo, você provavelmente pensa em incidentes como coisas ruins. No entanto, há outra maneira de olhar para ele: os incidentes são realmente investimentos* no fornecimento do valor que você está tentando entregar aos usuários finais. Seja qual for a causa do incidente ou a extensão do impacto, todos os incidentes têm uma coisa em comum: eles podem fornecer experiências de aprendizagem valiosas.
Você deve encarar incidentes como se fossem o pulso de seus sistemas. Eles dizem mais sobre o sistema do que você entendia anteriormente, e esse conhecimento é uma coisa boa. Quando você tem uma base forte de monitoramento e sabe mais sobre o que está acontecendo em seu sistema, isso inevitavelmente gerará mais alertas e incidentes e oportunidades para responder. Pelo menos, os incidentes indicam o que está acontecendo e, assim, aumentam sua consciência operacional. Em um módulo anterior sobre monitoramento, sugerimos que esse era um importante precursor do trabalho de confiabilidade.
Ciclo de vida de um incidente
Se você quiser elevar o status da sua equipe de resposta a incidentes para "elite/alto desempenho", você deve olhar além da ideia de uma interrupção ou incidente de serviço como uma linha do tempo linear simples e abordá-lo de uma perspectiva cíclica.
Você pode separar o ciclo de vida de um incidente em fases distintas que seguem logicamente uma após a outra em um ciclo que retorna ao início. Cada vez que você seguir esse ciclo (e você fará isso várias vezes), se você realizou o procedimento corretamente, será possível retornar ao início com mais insights sobre seus sistemas. Com algum trabalho intencional, você também pode estar melhor preparado para responder de forma rápida e eficaz na próxima vez que ocorrer um incidente.
Fases de um incidente
As fases individuais do processo de resposta a incidentes parecem um pouco diferentes dependendo do modelo usado. Para fins deste módulo, há cinco fases pelas quais você passa ao responder a um incidente:
- Detecção: essa fase é onde o conhecimento de monitoramento de um módulo anterior neste roteiro de aprendizagem entra em jogo. Suas ferramentas de monitoramento coletam as informações dos logs, analisam essas informações de acordo com os objetivos centrados no cliente que você configurou e enviam alertas acionáveis para informar que a intervenção humana é necessária.
- Resposta: essa fase é o que acontece depois que você e sua equipe recebem esse alerta. Vamos nos aprofundar nessa fase em detalhes neste módulo, portanto, haverá muito mais a dizer sobre essa ideia em apenas um momento.
- Correção: essa fase é onde você restaura os sistemas para a funcionalidade normal. Como você faz isso depende da causa da interrupção do serviço. Garantir que o serviço esteja funcionando e disponível para os seus clientes é sua prioridade máxima. No entanto, seu trabalho não para depois que isso é feito.
- Análise: Para obter um valor duradouro de incidentes, você precisa aprender com eles. Essa fase é o processo de coletar as informações sobre o que aconteceu e quando durante o incidente e ver o que você pode aprender com ela fazendo as perguntas certas. Há um módulo inteiro sobre Aprendizado com Falha que aborda essa fase.
- Preparação: você deve incorporar as lições aprendidas na fase de análise em sua prática de operações. Se houver itens de ação que ajudem a evitar uma interrupção semelhante no futuro, eles também farão parte dessa fase.
Antes de criar um plano de resposta a incidentes, você precisa entender as características e o valor dos incidentes e estar familiarizado com as fases do ciclo de vida de incidentes. A próxima etapa é garantir que sua estratégia de resposta seja baseada em uma base sólida.