A hierarquia Dickerson da confiabilidade
- 3 minutos
O mapa para o caminho de aprendizagem Melhore sua confiabilidade é baseado em um modelo do mundo da engenharia de confiabilidade do site chamado Hierarquia de Confiabilidade de Dickerson. Mikey Dickerson era um SRE que se tornou o administrador fundador dos Serviços Digitais dos Estados Unidos. Ele criou essa hierarquia enquanto enfrentava uma das maiores crises de confiabilidade de todos os tempos.
O modelo segue o padrão da hierarquia de necessidades de Abraham Maslow, que aborda a motivação humana. Tal como acontece com a hierarquia de Maslow, para progredir na hierarquia você precisa ter certeza de que cada um dos níveis inferiores foi abordado primeiro. Os níveis em que nos concentramos neste percurso de aprendizagem, de baixo para cima, são:
Monitorização
Este nível é a base importante sobre a qual assentam os outros níveis. É a fonte de informação que lhe permite ter conversas concretas sobre a fiabilidade na sua organização em torno de dados objetivos. Ao efetuar alterações, esta prática permite compreender o efeito. Em termos ainda mais severos, essa prática é como você sabe se as coisas estão melhorando ou não. Até que estejas seguro no monitoramento, não podes fazer o resto do trabalho.
Resposta a incidentes
Todo ambiente de produção tem algum tipo de interrupção. Não há como contestar esse fato. As perguntas passam então a ser "o que fazer quando ocorre um incidente? O que acontece quando os sistemas estão fora do ar e os clientes são afetados?" Você precisa de um processo padrão que seja eficaz na triagem do problema, na mobilização dos recursos certos e, em seguida, na mitigação do problema. Ao mesmo tempo, você também quer ter certeza de que está se comunicando com as partes interessadas sobre o problema.
Revisão pós-incidente (aprender com o fracasso)
Esse processo nos permite nivelar nossas práticas de operações, investigando, revisando e discutindo coletivamente a experiência de cada incidente significativo. A revisão pós-incidente permite-nos aprender com as falhas e é crucial para o trabalho de fiabilidade.
Teste/lançamento (implantação)
O próximo nível acima é o foco em nossos processos de teste, lançamento e implantação. Você pode pensar neste nível como "quão bom você é na criação de sistemas e processos que podem detetar problemas antes que eles causem incidentes?"
Planejamento/dimensionamento de capacidade
O sucesso e o crescimento que vem com ele, pode ser tanto uma ameaça à confiabilidade quanto qualquer problema com um sistema. Um cliente não pode dizer a diferença entre um sistema que está inativo porque há um bug no código e outro que está inativo porque é incapaz de lidar com a carga de muitas pessoas tentando acessá-lo simultaneamente. Esse nível da hierarquia nos direciona a prestar atenção ao planejamento de capacidade e ao dimensionamento como formas de lidar com essa ameaça.
Processo de desenvolvimento e experiência do usuário
Há mais dois níveis na hierarquia que não são abordados no caminho de aprendizagem Melhore sua confiabilidade : o processo de desenvolvimento e o trabalho para criar uma boa experiência do usuário (UX). Esses dois assuntos não são discutidos no caminho de aprendizagem Melhore sua confiabilidade , mas outros bons módulos do Learn sobre esses assuntos estão disponíveis.
Criámos um módulo de aprendizagem separado para cada nível na hierarquia de fiabilidade. Esperamos que se junte a nós para todos os cinco módulos neste caminho de aprendizagem.