Hiérarchie Dickerson de fiabilité
- 3 minutes
La carte du parcours d'apprentissage pour Améliorez votre Fiabilité est basée sur un modèle de l'ingénierie de la fiabilité des sites appelé la hiérarchie Dickerson de fiabilité. Mikey Dickerson était un SRE qui est devenu l’administrateur fondateur des Services numériques des États-Unis. Il a créé cette hiérarchie tout en faisant face à l’une des plus grandes crises de fiabilité jamais.
Le modèle est modélisé après la hiérarchie des besoins d’Abraham Maslow, qui répond à la motivation humaine. Comme avec la hiérarchie de Maslow, pour progresser vers le haut de la hiérarchie, vous devez vous assurer que chacun des niveaux inférieurs a été traité en premier. Les niveaux sur lesquels nous nous concentrons dans ce parcours d’apprentissage, de bas en haut, sont les suivants :
Supervision
Ce niveau est la base importante sur laquelle reposent les autres niveaux. Il s’agit de la source d’informations qui vous permet d’avoir des conversations concrètes sur la fiabilité dans votre organisation autour des données objectives. Lorsque vous apportez des modifications, cette pratique est la façon dont vous connaissez l’effet. En termes encore plus difficiles, cette pratique est la façon dont vous savez si les choses sont mieux ou non. Jusqu’à ce que vous soyez compétent en matière de surveillance, vous ne pouvez pas accomplir le reste du travail.
Réponse aux incidents
Chaque environnement de production a une panne d’une certaine sorte. Il n’y a pas de disputation de ce fait. Les questions deviennent alors « que faites-vous quand un incident se produit ? Que se passe-t-il lorsque les systèmes sont en panne et que les clients sont affectés ? » Vous avez besoin d’un processus standard efficace pour trier le problème, obtenir les ressources appropriées engagées, puis atténuer le problème. En même temps, vous souhaitez également vous assurer que vous communiquez avec les parties prenantes sur le problème.
Révision post-incident (apprentissage de l’échec)
Ce processus nous permet d'améliorer nos pratiques opérationnelles en examinant collectivement, en révisant et en discutant de chaque incident important. La révision post-incident nous permet d’apprendre de l’échec et est cruciale pour le travail de fiabilité.
Test/mise en production (déploiement)
Le niveau supérieur suivant est un focus sur nos processus de test, de mise en production et de déploiement. Vous pouvez considérer ce niveau comme "à quel point vous êtes capable de créer des systèmes et des processus qui peuvent détecter les problèmes avant qu’ils ne provoquent des incidents ?"
Planification/mise à l’échelle de la capacité
La réussite et la croissance qui lui est associée peuvent être tout aussi une menace pour la fiabilité que tout problème avec un système. Un client ne peut pas dire la différence entre un système qui est en panne, car il y a un bogue dans le code, et celui qui est en panne parce qu’il n’est pas en mesure de gérer la charge d’un trop grand nombre de personnes essayant de l’accéder simultanément. Ce niveau de la hiérarchie nous permet de prêter attention à la planification et à la mise à l’échelle de la capacité en tant que moyens de traiter cette menace.
Processus de développement et expérience utilisateur
Il existe deux niveaux supplémentaires dans la hiérarchie qui ne sont pas abordés dans le parcours d’apprentissage Améliorer votre fiabilité : le processus de développement et le travail qui va dans le but d’améliorer l’expérience utilisateur (UX). Ces deux sujets ne sont pas abordés dans le parcours d’apprentissage Améliorer votre fiabilité , mais d’autres modules Learn sur ces sujets sont disponibles.
Nous avons créé un module Learn distinct pour chaque niveau de la hiérarchie de fiabilité. Nous espérons que vous nous rejoignez pour les cinq modules de ce parcours d’apprentissage.