La jerarquía de confiabilidad de Dickerson
- 3 minutos
El mapa de la ruta de aprendizaje Mejorar la confiabilidad se basa en un modelo del mundo de ingeniería de confiabilidad del sitio denominado La jerarquía de confiabilidad de Dickerson. Mikey Dickerson fue un SRE que se convirtió en el administrador fundador de Los Estados Unidos Digital Services. Creó esta jerarquía mientras se enfrentaba a una de las crisis de confiabilidad más grandes de la historia.
El modelo se modela después de la jerarquía de necesidades de Abraham Maslow, que aborda la motivación humana. Al igual que con la jerarquía de Maslow, para avanzar en la jerarquía, debe asegurarse de que cada uno de los niveles inferiores se ha solucionado primero. Los niveles en los que nos centramos en esta ruta de aprendizaje, de abajo a arriba, son:
Monitorización
Este nivel es la base importante en la que descansan los demás niveles. Es la fuente de información que le permite tener conversaciones concretas sobre la confiabilidad en su organización en torno a los datos objetivos. Al realizar cambios, esta práctica es la forma de conocer el efecto. En términos aún más claros, esta práctica te permite saber si las cosas están mejorando o no. Hasta que esté sólido en la supervisión, no podrá realizar el resto del trabajo.
Respuesta ante incidentes
Cada entorno de producción tiene una interrupción de algún tipo. No hay disputar este hecho. A continuación, las preguntas se convierten en "¿qué hace cuando se produce un incidente? ¿Qué ocurre cuando los sistemas están inactivos y los clientes se ven afectados?" Necesita un proceso estándar que sea eficaz para evaluar el problema, obtener los recursos adecuados comprometidos y, a continuación, mitigar el problema. Al mismo tiempo, también quiere asegurarse de que se comunica con las partes interesadas sobre el problema.
Revisión posterior al incidente (aprendizaje de errores)
Este proceso nos permite nivelar nuestras prácticas de operaciones investigando, revisando y discutiendo colectivamente la experiencia de cada incidente significativo. La revisión posterior al incidente nos permite aprender de errores y es fundamental para el trabajo de confiabilidad.
Pruebas/lanzamiento (despliegue)
El siguiente nivel superior se centra en nuestros procesos de prueba, lanzamiento e implementación. Puede pensar en este nivel como "¿qué tan bueno está creando los sistemas y procesos que pueden detectar problemas antes de que causen incidentes?"
Planeamiento y escalado de capacidad
El éxito y el crecimiento que viene con él, pueden ser tan solo una amenaza para la confiabilidad como cualquier problema con un sistema. Un cliente no puede saber la diferencia entre un sistema que está inactivo porque hay un error en el código y otro que está inactivo porque no puede controlar la carga de demasiadas personas que intentan acceder simultáneamente a él. Este nivel de la jerarquía nos dirige a prestar atención al planeamiento y escalado de la capacidad como formas de abordar esa amenaza.
Proceso de desarrollo y experiencia del usuario
Hay dos niveles más en la jerarquía que no se abordan en la ruta de aprendizaje Mejorar la confiabilidad : el proceso de desarrollo y el trabajo que va a hacer una buena experiencia de usuario (UX). Estos dos temas no se tratan en la ruta de aprendizaje Mejorar la confiabilidad , pero hay disponibles otros módulos de Learn buenos sobre estos temas.
Hemos creado un módulo de Learn independiente para cada nivel de la jerarquía de confiabilidad. Esperamos que se una a nosotros para los cinco módulos de esta ruta de aprendizaje.