Resumo

Concluído

Todos têm incidentes. Se você executar qualquer sistema de praticamente qualquer tamanho, em algum momento, ele falhará e você terá uma interrupção. Isso é apenas um fato. É por isso que a Resposta a Incidentes é o segundo nível na Hierarquia de Confiabilidade do Dickerson, logo após o Monitoramento.

A pergunta então se torna: Como você reage nesses momentos? Você responde com urgência usando um plano ou processo definido ou tem uma reação ad hoc? Sabemos por meio de uma boa pesquisa no campo que o tempo de recuperação é um dos indicadores de uma organização de alto desempenho. Ter um bom processo de resposta a incidentes é crucial para reduzir esse período de recuperação.

Neste módulo, examinamos os estágios de um incidente e exploramos alguns dos principais componentes de um plano de resposta a incidentes para cada um desses estágios. Discutimos a importância de poder acompanhar bem os incidentes e maneiras de automatizar esse processo usando as ferramentas fornecidas pelo Azure. Também analisamos os principais aspectos da comunicação durante um incidente. Por fim, exploramos algumas das ferramentas que o Azure fornece que podem ajudar sua organização a ser mais eficiente durante a correção de um incidente.