Importância da resposta a incidentes

3 minutos

Com base nos princípios e práticas de monitoramento discutidos em outro módulo deste caminho de aprendizagem, você aprenderá agora o que fazer quando seu monitoramento revelar um problema. Se você receber um alerta acionável notificando que seus sistemas não estão funcionando conforme o esperado, esse é o gatilho para uma resposta para lidar com o problema.

O que é um incidente?

A resposta a incidentes diz respeito às ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; Mesmo todos os engenheiros não concordam sobre o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.

Alguns rotularão todas as interrupções como incidentes, independentemente de os clientes serem ou não afetados. No contexto deste módulo, podemos concordar que um incidente é definido como uma interrupção do serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços nos quais ele confia. Exemplos incluem quando os sistemas estão inativos ou estão funcionando mal de uma forma que afeta os clientes.

O que é resposta a incidentes?

Prevenir todos os problemas é um objetivo louvável, mas impossível. As coisas vão correr mal, por isso precisamos de um plano para limitar o impacto nos nossos utilizadores finais e voltar as operações ao normal o mais rapidamente possível.

A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e baseada no momento presente, sem considerar os efeitos a longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.

A sua abordagem de resposta a incidentes determina a sua eficácia em:

Entender o que está acontecendo (diagnosticar o problema).
Triagem (determinação da urgência) e priorização do problema.
Envolver os recursos certos para mitigar o(s) problema(s).
Comunicar com as partes interessadas sobre o problema.

Depois de remediar o problema, você pode aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um assunto importante que tem todo um módulo separado que merece ser discutido.

Medir o desempenho da resposta a incidentes

Você pode estar familiarizado com a sigla TTR, que é variadamente definida como "tempo para recuperar", "tempo para remediar" ou "tempo para restaurar". Todas essas variantes se referem à mesma coisa: a quantidade total de tempo que você leva para trazer os serviços de volta a um lugar onde eles possam voltar a atender às expectativas dos clientes.

Essa métrica é uma forma de medir o desempenho das equipes ao responder a incidentes. Quanto mais rápido você recuperar/corrigir/restaurar o serviço, menor será o impacto da interrupção ou da degradação do serviço.

É importante saber o quão bem sua organização está lidando com a resposta a incidentes. Todos os anos, a organização DevOps Research and Assessment (DORA) lança um relatório State of DevOps. Algumas das principais conclusões do relatório de 2019 centraram-se no desempenho da resposta a incidentes.

O relatório classificou as equipes de engenharia que podem detetar, responder e remediar interrupções de serviço em menos de uma hora como "elites ou de alto desempenho".
Aqueles que conseguiram se recuperar de incidentes em menos de 24 horas foram classificados como "de desempenho médio".
Os "de baixo desempenho" são aqueles que levam entre uma semana e um mês para se recuperar de interrupções no serviço.

A diferença entre estes níveis é significativa. O estudo descobriu que as equipes de elite/alto desempenho se recuperam de incidentes 2.604 vezes mais rapidamente do que seus colegas de "baixo desempenho". Os performers de elite/alto desempenho também estão a fazer implantações em produção 208 vezes mais frequentemente.

Porquê e como é que os artistas de elite respondem e recuperam tão mais rapidamente do que os restantes? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta fundamental já em vigor quando as coisas inevitavelmente dão errado.

Ao passar por este módulo, você aprenderá sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar seu próprio plano fundamental.

Feedback

Esta página foi útil?

Importância da resposta a incidentes

Verifique os seus conhecimentos

Feedback