Bases de la réponse aux incidents
- 6 minutes
Les organisations bénéficient aujourd’hui de l’accessibilité, de l’efficacité et de la commodité du cloud, mais elles sont confrontées à de nombreux défis quand elles subissent une transformation numérique qui implique de déplacer des parties de leur entreprise vers des services cloud.
Voici quelques-uns des défis courants auxquels vous pouvez faire face dans votre organisation :
- Augmentation du nombre d’interruptions de service
- Aucune méthode efficace de suivi et de réponse aux incidents (tout est ad hoc et réactionnaire)
- Temps inacceptable de résolution
- Le temps de résolution ne s’améliore pas ou s’aggrave
- Les informations et l’état sont difficiles à trouver
- Périodicité des mêmes problèmes et erreurs
Pour relever ces défis, vous avez besoin d’un plan de réponse aux incidents bien défini qui repose sur une base solide.
Fondations et piliers
L’objectif d’une fondation est de soutenir et de maintenir la structure au-dessus de celle-ci. Dans un module d’introduction distinct à ce parcours d’apprentissage, nous avons discuté de l’idée que le travail de fiabilité est basé sur le niveau de base de la surveillance et que la réponse aux incidents repose juste au-dessus de celle dans la hiérarchie.
La réponse aux incidents a également une base elle-même. Il existe trois piliers qui prennent en charge un bon plan de réponse aux incidents :
- Listes
- Rôles
- Roulements
Dans cette unité, vous découvrirez ce que sont chacun de ces piliers et les éléments qu’ils jouent dans la conception d’une stratégie de réponse aux incidents qui vous déplace plus loin dans la voie vers vos objectifs de fiabilité.
Listes
Il est essentiel d’avoir un bon plan, mais un plan est inutile sans que les gens l’exécutent. Ainsi, le meilleur point de départ consiste à déterminer qui est censé répondre aux problèmes et comment leur faire savoir quand leur réponse est nécessaire.
La meilleure façon de relever ce défi consiste à concevoir une liste. Une liste est une liste de personnes affectées à l’équipe d’appel. Cette équipe doit être composée de plusieurs ingénieurs. Ces membres de l’équipe doivent avoir les connaissances et les compétences nécessaires pour résoudre le type de problèmes qui peuvent se produire dans votre environnement, ainsi que la formation en réponse aux incidents.
Toutefois, une liste de noms n’est pas suffisante. Vous devez créer un cadre concernant la personne de permanence à tout moment et définir ce que chacun doit faire. C’est là que les rôles interviennent.
Rôles
Les rôles apportent de l'ordre à ce qui serait chaotique, ou, au mieux, une réponse ad-hoc. Elle le fait en définissant les fonctions spécifiques à prendre en compte par chaque personne dans une situation particulière, et la place de chacun dans la « chaîne de commande ». Les rôles peuvent varier selon l’organisation ou même par type d’incident, mais les rôles suivants doivent généralement faire partie d’une équipe de réponse aux incidents organisée :
- Répondeur principal : il s’agit de la « personne de point » qui est généralement la première personne sur la scène ; c’est-à-dire le premier ingénieur appelé lorsqu’un incident se produit.
- Répondeur secondaire : il s’agit d’une personne qui agit en tant que remplaçant et qui peut prendre le relais si le répondeur principal n’est pas disponible ou si une deuxième paire d’yeux est nécessaire.
- Experts en matières (PME) : il s’agit de personnes qui ont des connaissances approfondies sur une facette particulière de vos opérations. Ils sont là si les répondants principaux et secondaires doivent élever le problème à quelqu’un avec plus d’expertise. Ils ne sont pas à l’appel tout le temps, mais sont disponibles lorsque leurs compétences spécialisées sont nécessaires. Vous devez conserver une liste de PME dans différents sujets (par exemple, base de données, front-end, infrastructure réseau, applications web, cybersécurité, etc.).
- Commandant d’incident : il s’agit d’un rôle important dans un incident ou une panne à grande échelle qui a un impact sur de nombreux composants et/ou nécessite une coordination entre de nombreuses équipes et systèmes différents. Un commandant d’incident sera la personne qui coordonne une grande partie de la conversation et l’effort en ce qui concerne les activités de réponse et de correction. Le commandant de l’incident garde un œil sur l'ensemble ; il surveille ce qui se passe et qui fait quoi. Un commandant d’incident est idéal pour s’assurer que les ingénieurs restent concentrés et qu’ils travaillent sur leurs propres efforts de correction sans passer à pas ou annuler le travail des uns des autres.
- Scribe : le rôle du scribe consiste à documenter la conversation autour de l’incident autant que possible. Les équipes utilisent couramment des ponts téléphoniques, des téléconférences ou des conversations vidéo pour rassembler tout le monde et essayer de comprendre ce qui se passe, ce qui peut certainement aider à créer de l’espace pour la conversation. Toutefois, il est difficile pour nous de passer en revue et de comprendre en détail ce que les ingénieurs disaient et de faire à moins qu’il ne soit transcrit. Par conséquent, un scribe est la personne qui peut nous aider à documenter autant que possible pour passer en revue ultérieurement. Le scribe capture toutes les données possibles ; pas seulement ce que font les membres de l’équipe, mais aussi ce qu’ils disent et même ce qu’ils ressentent ou vivent.
- Coordinateur de communication : considérez cette personne comme « responsable des relations publiques » pour l’incident. Le coordinateur de communication travaille conjointement avec le commandant de l’incident pour partager des informations sur l’incident avec ceux qui ne sont pas impliqués activement dans le travail de résolution et de récupération de l’incident. Cela peut inclure les clients, les équipes commerciales et marketing, le support client et tous les autres intervenants au sein ou à l’extérieur de l’organisation qui doivent être conscients de ce qui se passe et de l’état de la progression de la réponse et de la correction.
Roulements
Vous disposez maintenant de votre liste de membres de l’équipe de réponse et vous avez attribué les rôles appropriés. La prochaine et dernière étape consiste à créer un roulement, à savoir un planning qui attribue les dates et horaires pendant lesquels chaque personne est d’astreinte.
Il existe de nombreuses façons de répartir les équipes. La planification des shifts peut être un processus stratégique complexe. Les décalages ne doivent pas être attribués de manière aléatoire ; vous devez réfléchir à la planification pour la rendre aussi efficace , et aussi agréable que possible pour les membres de l’équipe.
Voici quelques méthodes de planification des shifts :
- 24 x 7 : il s’agit d’une rotation dans laquelle les membres de l’équipe sont de garde pendant plusieurs jours de suite. Il s’agit d’un moyen simple d’allouer les périodes d’astreinte, mais vous devez veiller à en limiter la durée. Les rotations de quarts de travail de plus de trois à quatre jours peuvent nuire à l’intégrité globale du personnel d’ingénierie, ce qui réduit la fiabilité de l’ensemble du système.
- Suivre le rythme du soleil pour les astreintes : Dans ce modèle de roulement, les ingénieurs planifient leurs périodes d’astreinte uniquement pendant leurs heures de travail normales, puis transmettent leur responsabilité d’astreinte à la fin de leur journée de travail à un autre collègue situé dans un autre fuseau horaire.
Il ne s'agit que de quelques exemples de façons dont les postes peuvent être attribués. Le point important est de diviser les changements d’une manière qui fonctionne le mieux pour les individus de votre équipe de réponse. Il existe de nombreuses façons de personnaliser les quarts de travail, en particulier pour les week-ends, lorsque les ingénieurs ont besoin d’une plus grande flexibilité. Les ingénieurs doivent être en mesure de remettre facilement le rôle à quelqu’un lorsque des conflits non liés au travail se produisent.