Résumé

Effectué

Tout le monde a des incidents. Si vous exécutez un système de taille quelconque, à un moment donné, il échoue et vous aurez une panne. C’est juste un fait. C’est pourquoi la réponse aux incidents est le deuxième niveau de la hiérarchie de fiabilité de Dickerson, juste après la surveillance.

La question devient alors : Comment réagir dans ces moments ? Répondez-vous en cas d’urgence à l’aide d’un plan ou d’un processus défini, ou avez-vous une réaction ad hoc ? Nous savons de bonnes recherches dans le domaine que le temps de récupération est l’un des indicateurs d’une organisation hautement performante. Le fait d’avoir un bon processus de réponse aux incidents est essentiel pour réduire cette période de récupération.

Dans ce module, nous avons examiné les étapes d’un incident et exploré certains des principaux composants d’un plan de réponse aux incidents pour chacune de ces étapes. Nous avons discuté de l’importance de pouvoir suivre correctement les incidents et les moyens d’automatiser ce processus à l’aide des outils fournis par Azure. Nous avons également examiné les aspects clés de la communication pendant un incident. Enfin, nous avons exploré certains des outils fournis par Azure qui peuvent aider votre organisation à être plus efficaces lors de la correction d’un incident.