Importância da resposta a incidentes
- 3 minutos
Com base nos princípios e práticas de monitoramento discutidos em outro módulo deste caminho de aprendizagem, você aprenderá agora o que fazer quando seu monitoramento revelar um problema. Se você receber um alerta acionável notificando que seus sistemas não estão funcionando conforme o esperado, esse é o gatilho para uma resposta para lidar com o problema.
O que é um incidente?
A resposta a incidentes diz respeito às ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; Mesmo todos os engenheiros não concordam sobre o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.
Alguns rotularão todas as interrupções como incidentes, independentemente de os clientes serem ou não afetados. No contexto deste módulo, podemos concordar que um incidente é definido como uma interrupção do serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços nos quais ele confia. Exemplos incluem quando os sistemas estão inativos ou estão funcionando mal de uma forma que afeta os clientes.
O que é resposta a incidentes?
Prevenir todos os problemas é um objetivo louvável, mas impossível. As coisas vão correr mal, por isso precisamos de um plano para limitar o impacto nos nossos utilizadores finais e voltar as operações ao normal o mais rapidamente possível.
A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e baseada no momento presente, sem considerar os efeitos a longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.
A sua abordagem de resposta a incidentes determina a sua eficácia em:
- Entender o que está acontecendo (diagnosticar o problema).
- Triagem (determinação da urgência) e priorização do problema.
- Envolver os recursos certos para mitigar o(s) problema(s).
- Comunicar com as partes interessadas sobre o problema.
Depois de remediar o problema, você pode aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um assunto importante que tem todo um módulo separado que merece ser discutido.
Medir o desempenho da resposta a incidentes
Você pode estar familiarizado com a sigla TTR, que é variadamente definida como "tempo para recuperar", "tempo para remediar" ou "tempo para restaurar". Todas essas variantes se referem à mesma coisa: a quantidade total de tempo que você leva para trazer os serviços de volta a um lugar onde eles possam voltar a atender às expectativas dos clientes.
Essa métrica é uma forma de medir o desempenho das equipes ao responder a incidentes. Quanto mais rápido você recuperar/corrigir/restaurar o serviço, menor será o impacto da interrupção ou da degradação do serviço.
É importante saber o quão bem sua organização está lidando com a resposta a incidentes. Todos os anos, a organização DevOps Research and Assessment (DORA) lança um relatório State of DevOps. Algumas das principais conclusões do relatório de 2019 centraram-se no desempenho da resposta a incidentes.
- O relatório classificou as equipes de engenharia que podem detetar, responder e remediar interrupções de serviço em menos de uma hora como "elites ou de alto desempenho".
- Aqueles que conseguiram se recuperar de incidentes em menos de 24 horas foram classificados como "de desempenho médio".
- Os "de baixo desempenho" são aqueles que levam entre uma semana e um mês para se recuperar de interrupções no serviço.
A diferença entre estes níveis é significativa. O estudo descobriu que as equipes de elite/alto desempenho se recuperam de incidentes 2.604 vezes mais rapidamente do que seus colegas de "baixo desempenho". Os performers de elite/alto desempenho também estão a fazer implantações em produção 208 vezes mais frequentemente.
Porquê e como é que os artistas de elite respondem e recuperam tão mais rapidamente do que os restantes? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta fundamental já em vigor quando as coisas inevitavelmente dão errado.
Ao passar por este módulo, você aprenderá sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar seu próprio plano fundamental.