A hierarquia Dickerson de confiabilidade
- 3 minutos
O mapa para o roteiro de aprendizagem Aprimorar confiabilidade é baseado em um modelo do mundo da engenharia de confiabilidade de site, chamado de Hierarquia de Confiabilidade de Dickerson. Mikey Dickerson foi um SRE que se tornou o administrador fundador dos Serviços Digitais dos Estados Unidos. Ele criou essa hierarquia enquanto enfrentava uma das maiores crises de confiabilidade de todos os tempos.
O modelo é padronizado após a hierarquia de necessidades de Abraham Maslow, que aborda a motivação humana. Assim como acontece com a hierarquia de Maslow, para avançar na hierarquia, você precisa garantir que cada um dos níveis inferiores tenha sido tratado primeiro. Os níveis nos quais nos concentramos neste roteiro de aprendizagem, de baixo para cima, são:
Monitorização
Esse nível é a base importante na qual os outros níveis se apoiam. É a fonte de informações que permite que você tenha conversas concretas sobre confiabilidade em sua organização em torno de dados objetivos. Quando você faz alterações, essa prática ajuda a entender o efeito. Em termos ainda mais claros, essa prática é como você sabe se as coisas estão melhorando ou não. Enquanto você não tiver um monitoramento confiável, não será possível realizar o restante do trabalho.
Resposta a incidente
Cada ambiente de produção tem uma interrupção de algum tipo. Não há como contestar esse fato. As perguntas então se tornam "o que você faz quando um incidente ocorre? O que acontece quando os sistemas estão inativos e os clientes são afetados?" Você precisa de um processo padrão que seja eficaz para corrigir o problema, obter os recursos certos envolvidos e, em seguida, atenuar o problema. Ao mesmo tempo, você também deseja ter certeza de que está se comunicando com os stakeholders sobre o problema.
Revisão pós-incidente (aprendendo com a falha)
Esse processo nos permite nivelar nossas práticas de operações investigando, revisando e discutindo coletivamente a experiência de cada incidente significativo. A revisão pós-incidente nos permite aprender com a falha e é crucial para o trabalho de confiabilidade.
Teste/lançamento (implantação)
O próximo nível é focar em nossos processos de teste, liberação e implantação. Você pode pensar nesse nível como "quão bom você é ao criar os sistemas e processos que podem capturar problemas antes que eles causem incidentes?"
Planejamento/dimensionamento de capacidade
O sucesso e o crescimento que vem com ele podem ser tanto uma ameaça à confiabilidade quanto qualquer problema com um sistema. Um cliente não pode dizer a diferença entre um sistema que está inativo porque há um bug no código e um que está inoperante porque não consegue lidar com a carga de muitas pessoas tentando acessá-lo simultaneamente. Esse nível da hierarquia nos orienta a prestar atenção ao planejamento e ao dimensionamento da capacidade como formas de lidar com essa ameaça.
Experiência do usuário e processo de desenvolvimento
Há mais dois níveis na hierarquia que não são abordados no roteiro de aprendizagem Aprimorar a Confiabilidade: o processo de desenvolvimento e o trabalho necessário para criar uma boa experiência do usuário (UX). Esses dois assuntos não serão abordados no roteiro de aprendizagem Aprimorar confiabilidade, mas outros módulos bons do Learn sobre esses tópicos estão disponíveis.
Criamos um módulo Learn separado para cada nível na hierarquia de confiabilidade. Esperamos que você se junte a nós para todos os cinco módulos neste roteiro de aprendizagem.