A importância da resposta a incidentes

3 minutos

Com base nos princípios e práticas de monitoramento discutidos em outro módulo desse roteiro de aprendizagem, agora você aprenderá o que fazer quando o monitoramento revelar um problema. Se você receber um alerta acionável informando que seus sistemas não estão operando conforme o esperado, esse é o gatilho para uma resposta para lidar com o problema.

O que é um incidente?

A resposta a incidentes é sobre as ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; mesmo todos os engenheiros não concordam com o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.

Alguns rotularão todas as interrupções como incidentes, independentemente de os clientes serem afetados ou não. No contexto deste módulo, podemos concordar que um incidente é definido como uma interrupção de serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços nos quais ele depende. Exemplos incluem quando os sistemas estão inativos ou estão funcionando mal de uma maneira que afeta os clientes.

O que é resposta a incidentes?

Evitar todos os problemas é um objetivo louvável, mas impossível. As coisas eventualmente darão errado, portanto, precisamos de um plano para limitar o impacto sobre nossos usuários finais e retornar as operações ao normal o mais rápido possível.

A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e baseada no momento presente, sem considerar os efeitos a longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.

Sua abordagem de resposta a incidentes determina sua eficácia em:

Noções básicas sobre o que está acontecendo (diagnosticando o problema).
Triagem (determinando a urgência) e priorização do problema.
Envolver os recursos certos para atenuar os problemas.
Comunicando com as partes interessadas sobre o problema.

Depois de corrigir o problema, você pode aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um assunto importante que tem um módulo inteiro separado que vale a pena discutir.

Medindo o desempenho da resposta a incidentes

Você pode estar familiarizado com o acrônimo TTR, que é definido várias vezes como "tempo de recuperação", "hora de corrigir" ou "hora de restaurar". Todas essas variantes referem-se à mesma coisa: a quantidade total de tempo que leva para você trazer os serviços de volta para um lugar onde eles podem retornar para atender às expectativas dos clientes.

Essa métrica é uma maneira de medir o desempenho das equipes ao responder a incidentes. Quanto mais rápido você recuperar/corrigir/restaurar o serviço, menos impacto o serviço de interrupção ou degradado terá.

É importante saber o quão bem sua organização está lidando com a resposta a incidentes. Todos os anos, a organização DevOps Research and Assessment (DORA) lança um relatório State of DevOps . Alguns dos principais achados no relatório de 2019 se concentraram no desempenho da resposta a incidentes.

O relatório classificou as equipes de engenharia que podem detectar, responder e corrigir interrupções de serviço em menos de uma hora como "de elite ou de alto desempenho".
Aqueles que foram capazes de se recuperar de incidentes em menos de 24 horas foram classificados como "médios artistas".
As de "baixo desempenho" são aquelas que levam entre uma semana e um mês para se recuperar de interrupções de serviço.

A diferença entre esses níveis é significativa. O estudo constatou que as equipes de elite/alto desempenho se recuperam de incidentes 2.604 vezes mais rapidamente do que seus pares de "baixo desempenho". As equipes de elite/alto desempenho também estão implantando para produção com uma frequência 208 vezes maior.

Por que e como os artistas de elite respondem e se recuperam muito mais rapidamente do que o resto? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta fundamental já em vigor quando as coisas inevitavelmente dão errado.

Ao percorrer este módulo, você aprenderá sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar seu próprio plano fundamental.

Comentários

Esta página foi útil?

A importância da resposta a incidentes

Verifique seu conhecimento

Comentários