Características e ciclo de vida de um incidente
- 4 minutos
Como você aprendeu na última unidade, um incidente é uma interrupção de serviço que afeta seus clientes e usuários finais. Os incidentes vêm de muitas formas, desde lentidão de desempenho que frustram os usuários ("lento é o novo down") até falhas no sistema que tornam o serviço ou site completamente indisponível por um período de tempo.
Características de um incidente
Os incidentes geralmente são inesperados e parecem ocorrer no pior horário possível (como 2h00 da manhã, ou quando você está profundamente imerso em um projeto importante). É por isso que os incidentes são comumente temidos e evitados, a ponto de as pessoas às vezes minimizarem a importância de um incidente. A pressão interna às vezes é tão grande em uma organização que há uma tentação de rotular erroneamente ou deixar de relatar uma interrupção por medo de repreensão.
No mínimo, os incidentes criam trabalho não planejado e, como você passa a maior parte do seu tempo fazendo um trabalho planejado com uma boa ideia do que deveria estar fazendo, provavelmente pensa nos incidentes como coisas ruins. No entanto, há outra maneira de olhar para isso: os incidentes são realmente investimentos* em fornecer o valor que você está tentando entregar aos usuários finais. Seja qual for a causa do incidente ou a extensão do impacto, todos os incidentes têm uma coisa em comum: podem proporcionar experiências de aprendizagem valiosas.
Você deve ver os incidentes como o pulso de seus sistemas. Eles dizem mais sobre o sistema do que você entendia anteriormente, e esse conhecimento é uma coisa boa. Quando você tem uma base sólida de monitoramento e sabe mais sobre o que está acontecendo em seu sistema, isso inevitavelmente gerará mais alertas e incidentes e oportunidades para responder. No mínimo, os incidentes dizem o que está acontecendo e, assim, aumentam sua consciência operacional. Num módulo anterior sobre monitorização, sugerimos que este era um importante precursor do trabalho de fiabilidade.
Ciclo de vida de um incidente
Se você quiser elevar o status de sua equipe de resposta a incidentes para "elite/alto desempenho", você deve olhar além da ideia de uma interrupção de serviço ou incidente como uma linha do tempo linear simples e abordá-la de uma perspetiva cíclica.
Você pode separar o ciclo de vida de um incidente em fases distintas que logicamente seguem uma após a outra em um ciclo que retorna ao início. Cada vez que passa por este ciclo (e fá-lo-á inúmeras vezes), se o gerir corretamente, é possível regressar ao início com um maior entendimento dos seus sistemas. Com algum trabalho intencional, também pode estar mais bem preparado para responder de forma rápida e eficaz da próxima vez que ocorrer um incidente.
Fases de um incidente
As fases individuais do processo de resposta a incidentes parecem um pouco diferentes, dependendo do modelo usado. Para fins deste módulo, há cinco fases pelas quais você passa na resposta a um incidente:
- Deteção: Esta fase é onde entra em jogo o conhecimento de monitorização de um módulo anterior neste percurso de aprendizagem. Suas ferramentas de monitoramento coletam as informações dos logs, analisam essas informações de acordo com os objetivos centrados no cliente que você configurou e enviam alertas acionáveis para que você saiba que a intervenção humana é necessária.
- Resposta: Esta fase é o que acontece depois que você e sua equipe recebem esse alerta. Vamos mergulhar nesta fase em detalhes neste módulo, então haverá muito mais a dizer sobre essa ideia em apenas um momento.
- Remediação: Esta fase é onde você restaura os sistemas para a funcionalidade normal. Como você faz isso depende da causa da interrupção do serviço. Colocar o serviço de volta em funcionamento e disponível para seus clientes é sua principal prioridade. No entanto, o seu trabalho não para quando isso é feito.
- Análise: Para obter valor duradouro dos incidentes, você precisa aprender com eles. Esta fase é o processo de reunir as informações sobre o que aconteceu e quando durante o incidente e ver o que você pode aprender com isso fazendo as perguntas certas. Há um módulo inteiro sobre Aprender com o Fracasso que aborda esta fase.
- Prontidão: Você deve incorporar as lições aprendidas na fase de análise em sua prática de operações. Se houver itens de ação que ajudem a evitar uma interrupção semelhante no futuro, eles também farão parte dessa fase.
Antes de criar um plano de resposta a incidentes, você precisa entender as características e o valor dos incidentes e estar familiarizado com as fases do ciclo de vida do incidente. O próximo passo é garantir que sua estratégia de resposta seja construída sobre uma base sólida.