A importância da resposta a incidentes
- 3 minutos
Com base nos princípios e práticas de monitoramento discutidos em outro módulo desse roteiro de aprendizagem, agora você aprenderá o que fazer quando o monitoramento revelar um problema. Se você receber um alerta acionável informando que seus sistemas não estão operando conforme o esperado, esse é o gatilho para uma resposta para lidar com o problema.
O que é um incidente?
A resposta a incidentes é sobre as ações que você toma quando ocorre um incidente, mas o que exatamente constitui um incidente? A resposta pode ser subjetiva; mesmo todos os engenheiros não concordam com o que é um incidente. Se você fizer a pergunta em diferentes setores e organizações, obterá muitas respostas diferentes.
Alguns rotularão todas as interrupções como incidentes, independentemente de os clientes serem afetados ou não. No contexto deste módulo, podemos concordar que um incidente é definido como uma interrupção de serviço: uma ocorrência ou condição que afeta a capacidade do usuário de usar os serviços nos quais ele depende. Exemplos incluem quando os sistemas estão inativos ou estão funcionando mal de uma maneira que afeta os clientes.
O que é resposta a incidentes?
Evitar todos os problemas é um objetivo louvável, mas impossível. As coisas eventualmente darão errado, portanto, precisamos de um plano para limitar o impacto sobre nossos usuários finais e retornar as operações ao normal o mais rápido possível.
A chave é responder com urgência em vez de reagir. Uma reação tende a ser mais impulsiva e baseada no momento presente, sem considerar os efeitos a longo prazo. Uma resposta é bem pensada, organizada e baseada em informações.
Sua abordagem de resposta a incidentes determina sua eficácia em:
- Noções básicas sobre o que está acontecendo (diagnosticando o problema).
- Triagem (determinando a urgência) e priorização do problema.
- Envolver os recursos certos para atenuar os problemas.
- Comunicando com as partes interessadas sobre o problema.
Depois de corrigir o problema, você pode aprender com o incidente por meio de um processo de revisão pós-incidente. Esse é um assunto importante que tem um módulo inteiro separado que vale a pena discutir.
Medindo o desempenho da resposta a incidentes
Você pode estar familiarizado com o acrônimo TTR, que é definido várias vezes como "tempo de recuperação", "hora de corrigir" ou "hora de restaurar". Todas essas variantes referem-se à mesma coisa: a quantidade total de tempo que leva para você trazer os serviços de volta para um lugar onde eles podem retornar para atender às expectativas dos clientes.
Essa métrica é uma maneira de medir o desempenho das equipes ao responder a incidentes. Quanto mais rápido você recuperar/corrigir/restaurar o serviço, menos impacto o serviço de interrupção ou degradado terá.
É importante saber o quão bem sua organização está lidando com a resposta a incidentes. Todos os anos, a organização DevOps Research and Assessment (DORA) lança um relatório State of DevOps . Alguns dos principais achados no relatório de 2019 se concentraram no desempenho da resposta a incidentes.
- O relatório classificou as equipes de engenharia que podem detectar, responder e corrigir interrupções de serviço em menos de uma hora como "de elite ou de alto desempenho".
- Aqueles que foram capazes de se recuperar de incidentes em menos de 24 horas foram classificados como "médios artistas".
- As de "baixo desempenho" são aquelas que levam entre uma semana e um mês para se recuperar de interrupções de serviço.
A diferença entre esses níveis é significativa. O estudo constatou que as equipes de elite/alto desempenho se recuperam de incidentes 2.604 vezes mais rapidamente do que seus pares de "baixo desempenho". As equipes de elite/alto desempenho também estão implantando para produção com uma frequência 208 vezes maior.
Por que e como os artistas de elite respondem e se recuperam muito mais rapidamente do que o resto? É pelo menos parcialmente porque eles entendem a importância de ter um bom plano de resposta fundamental já em vigor quando as coisas inevitavelmente dão errado.
Ao percorrer este módulo, você aprenderá sobre as características e o ciclo de vida de um incidente e como usar esse conhecimento para criar seu próprio plano fundamental.