Importance de la réponse aux incidents
- 3 minutes
En s’appuyant sur les principes et les pratiques de surveillance abordés dans un autre module à partir de ce parcours d’apprentissage, vous allez maintenant apprendre à faire quand votre surveillance révèle un problème. Si vous recevez une alerte actionnable vous informant que vos systèmes ne fonctionnent pas comme prévu, c’est le déclencheur d’une réponse pour résoudre le problème.
Qu’est-ce qu’un incident ?
La réponse aux incidents concerne les actions que vous effectuez lorsqu’un incident se produit, mais qu’est-ce qui constitue exactement un incident ? La réponse peut être subjective ; même tous les ingénieurs ne sont pas d’accord sur ce qu’est un incident. Si vous posez la question dans différents secteurs et organisations, vous obtenez de nombreuses réponses différentes.
Certains étiquetront toutes les interruptions en tant qu’incidents, que les clients soient affectés ou non. Dans le contexte de ce module, nous pouvons accepter qu’un incident est défini comme une interruption de service : une occurrence ou une condition qui affecte la capacité de l’utilisateur à utiliser les services sur lesquels il s’appuie. Par exemple, les systèmes sont en panne ou sont défectueux d’une manière qui a un impact sur les clients.
Qu’est-ce que la réponse aux incidents ?
Prévenir tous les problèmes est un objectif louable, mais impossible. Les choses vont mal, donc nous avons besoin d’un plan pour limiter l’impact sur nos utilisateurs finaux et retourner les opérations normales aussi rapidement que possible.
La clé est de répondre avec urgence plutôt que de réagir. Une réaction tend à être plus impulsive et basée dans le moment présent, sans tenir compte des effets à long terme. Une réponse est bien pensée, organisée et basée sur des informations.
Votre approche de réponse aux incidents détermine votre efficacité à :
- Comprendre ce qui se passe (diagnostiquer le problème).
- Triage (détermination de l’urgence) et hiérarchisation du problème.
- Engagement des ressources appropriées pour atténuer le ou les problèmes.
- Communiquer avec les parties prenantes sur le problème.
Une fois que vous avez corrigé le problème, vous pouvez ensuite apprendre à partir de l’incident via un processus de révision post-incident. C’est un sujet important qui a tout un module distinct de discussion.
Mesure des performances de réponse aux incidents
Vous pouvez être familiarisé avec l’acronyme TTR, qui est défini de manière variée comme « temps de récupération », « temps de correction », ou « heure de restauration ». Toutes ces variantes font référence à la même chose : le temps total nécessaire pour vous ramener des services à un endroit où ils peuvent revenir aux attentes des clients.
Cette métrique est un moyen de mesurer le niveau de performance des équipes lors de la réponse aux incidents. Plus vite vous récupérerez/corrigerez/restaurerez le service, moins la panne ou le service détérioré aura d'impact.
Il est important de savoir comment votre organisation gère la réponse aux incidents. Chaque année, l’organisation DevOps Research and Assessment (DORA) publie un rapport State of DevOps . Certains résultats clés du rapport 2019 se sont concentrés sur les performances de réponse aux incidents.
- Le rapport classe les équipes d’ingénierie qui peuvent détecter, répondre et corriger les interruptions de service en moins d’une heure en tant qu'« élites ou hautes performances ».
- Ceux qui ont pu récupérer des incidents en moins de 24 heures ont été classés comme des « artistes moyens ».
- Les « faibles interprètes » sont ceux qui prennent entre une semaine et un mois pour récupérer des interruptions de service.
La différence entre ces niveaux est significative. L’étude a révélé que les équipes d’élite/hautes performances se rétablissent des incidents 2 604 fois plus rapidement que leurs homologues « faiblement performants ». Les employés performants ou de haut niveau sont également déployés en production 208 fois plus souvent.
Pourquoi et comment les artistes d’élite répondent-ils et récupèrent-ils beaucoup plus rapidement que le reste ? C’est au moins partiellement parce qu’ils comprennent l’importance d’avoir un bon plan de réponse fondamental déjà en place lorsque les choses vont inévitablement mal.
À mesure que vous parcourez ce module, vous allez découvrir les caractéristiques et le cycle de vie d’un incident et comment utiliser ces connaissances pour créer votre propre plan de base.