Caractéristiques et cycle de vie d’un incident
- 4 minutes
Comme vous l’avez appris dans la dernière unité, un incident est une interruption de service qui a un impact sur vos clients et utilisateurs finaux. Les incidents se présentent sous de nombreuses formes, allant des ralentissements de performances qui frustrent les utilisateurs (« lent, c'est le nouveau plantage ») aux incidents système qui rendent le service ou le site complètement indisponible pendant un certain temps.
Caractéristiques d’un incident
Les incidents sont généralement inattendus et semblent se produire au pire moment possible (par exemple, 2 h 00, ou lorsque vous êtes profondément immergé dans un projet important). C’est pourquoi les incidents sont généralement craints et évités, même au point où les gens minimisent parfois l’importance d’un incident. La pression interne est parfois si grande dans une organisation qu'il y a une tentation de mal étiqueter ou de ne pas signaler une perturbation par crainte de réprimandes.
Au moins, les incidents créent un travail non planifié, et parce que vous passez la plupart de votre temps à faire du travail planifié avec une bonne idée de ce que vous êtes censé faire, vous pensez probablement à des incidents comme des mauvaises choses. Toutefois, il existe une autre façon de l’examiner : les incidents sont vraiment des investissements* pour fournir la valeur que vous essayez de remettre aux utilisateurs finaux. Quelle que soit la cause de l’incident ou l’étendue de l’impact, tous les incidents ont une chose en commun : ils peuvent fournir des expériences d’apprentissage précieuses.
Vous devez voir les incidents comme l’impulsion de vos systèmes. Ils vous en disent plus sur le système que vous ne compreniez auparavant, et cette connaissance est une bonne chose. Lorsque vous avez une solide base de surveillance et que vous en savez davantage sur ce qui se passe dans votre système, il génère inévitablement plus d’alertes et d’incidents et d’opportunités de réponse. Au moins, les incidents vous indiquent ce qui se passe et augmentent ainsi votre sensibilisation opérationnelle. Dans un module précédent sur la surveillance, nous avons suggéré qu’il s’agissait d’un précurseur important du travail de fiabilité.
Cycle de vie d’un incident
Si vous souhaitez élever le statut de votre équipe de réponse aux incidents en « élite/hautes performances », vous devez regarder au-delà de l’idée d’une interruption de service ou d’un incident comme une chronologie linéaire simple et l’approcher du point de vue cyclique.
Vous pouvez séparer le cycle de vie d’un incident en phases distinctes qui suivent logiquement l’un après l’autre dans un cycle qui revient au début. Chaque fois que vous parcourez ce cycle (et que vous le ferez de nombreuses fois), si vous le gérez correctement, il est possible de revenir au début avec plus d’insights sur vos systèmes. Avec un travail intentionnel, vous pouvez également être mieux préparé à répondre rapidement et efficacement la prochaine fois qu’un incident se produit.
Phases d’un incident
Les phases individuelles du processus de réponse aux incidents s’affichent un peu différentes selon le modèle que vous utilisez. Pour les besoins de ce module, il existe cinq phases que vous passez en réponse à un incident :
- Détection : cette phase est l’endroit où les connaissances de surveillance d’un module précédent dans ce parcours d’apprentissage entrent en jeu. Vos outils de surveillance collectent les informations des journaux, analysent ces informations en fonction des objectifs centrés sur le client que vous avez configurés et vous envoient des alertes actionnables pour vous informer que l’intervention humaine est nécessaire.
- Réponse : cette phase se produit après que vous et votre équipe recevez cette alerte. Nous allons nous plonger dans cette phase en détail dans ce module, donc il y aura beaucoup plus à dire sur cette idée dans un instant.
- Correction : cette phase est l’endroit où vous restaurez les systèmes à des fonctionnalités normales. La façon dont vous faites cela dépend de la cause de l’interruption de service. Votre priorité absolue est de rétablir le service et le rendre disponible pour vos clients. Toutefois, votre travail ne s’arrête pas une fois cela terminé.
- Analyse : Pour obtenir une valeur durable à partir d’incidents, vous devez les apprendre. Cette phase est le processus de collecte des informations sur ce qui s’est passé et quand au cours de l’incident et de voir ce que vous pouvez apprendre de celui-ci en posant les bonnes questions. Il existe un module entier sur l’apprentissage de l’échec qui traite de cette phase.
- Préparation : vous devez incorporer les leçons apprises dans la phase d’analyse dans votre pratique opérationnelle. S’il existe des éléments d’action qui contribueraient à prévenir une panne similaire à l’avenir, ils feront également partie de cette phase.
Avant de créer un plan de réponse aux incidents, vous devez comprendre les caractéristiques et la valeur des incidents et vous familiariser avec les phases du cycle de vie des incidents. L’étape suivante consiste à vous assurer que votre stratégie de réponse repose sur une base solide.