Modèle de maturité de fiabilité

Le parcours de fiabilité est un processus pas à pas où chaque étape s’appuie sur la précédente pour garantir que les systèmes restent disponibles et répondent aux attentes des utilisateurs. Ce modèle de maturité est destiné à vous aider à évaluer votre état actuel et à offrir un chemin structuré pour l’amélioration.

La base commence par l’amorçage des fonctionnalités de fiabilité de base offertes par Azure en utilisant des fonctionnalités de fiabilité Azure intégrées telles que la redondance de zone pour des améliorations immédiates sans surcharge d’optimisation étendue.

De façon contre-intuitive, la façon d’atteindre une fiabilité élevée consiste à accepter les défaillances sont inévitables. Au lieu d’essayer d’empêcher chaque problème, il est plus efficace de planifier la façon dont votre système répond lorsque des problèmes se produisent. Vos besoins métier permettent de déterminer les risques qui méritent d’être abordés de manière proactive. Les équipes investissent dans des fonctionnalités de supervision avancées avec une observabilité structurée, étendent l’atténuation des défaillances pour inclure les préoccupations au niveau de l’application et commencent à tester les mesures de résilience.

Ensuite, les équipes intègrent des insights métier avec des compétences techniques. Teams implémentent la modélisation de la santé, effectuent une analyse du mode de défaillance et préparent des plans de récupération d'urgence complets. Cette étape garantit la responsabilité grâce à des objectifs mesurables et à la préparation systématique pour différents scénarios d’échec.

Une fois que le système est actif, l’accent est mis sur la gestion des défis liés aux environnements de production, notamment la gestion des changements et la complexité opérationnelle des données, ainsi que sur la façon dont ceux-ci affectent la fiabilité de votre système.

Le niveau final s’exécute indéfiniment et être résilient est son objectif principal. Ce niveau représente l’évolution au-delà des contrôles techniques à l’adaptabilité architecturale. Ce niveau se concentre sur l’activation des systèmes pour résister aux risques nouveaux et imprévus à mesure que les charges de travail évoluent et augmentent.

Le modèle est structuré en cinq niveaux de maturité distincts, chacun ayant un objectif principal et un ensemble de stratégies de base. Utilisez les affichages par onglets ci-dessous pour explorer chaque niveau. Veillez également à passer en revue les compromis mis en évidence et les risques associés à mesure que vous progressez.

L’icône Objectif Établir un terrain solide pour la résilience dans l’infrastructure et les opérations de charge de travail, plutôt que de consacrer du temps aux tâches d’optimisation.

Le niveau 1 du modèle de maturité est conçu pour aider les équipes de charge de travail à créer une base solide pour la fiabilité du système. L’accent est mis sur l’amorçage, qui est le processus de mise en place des principes de base pour les décisions futures en matière de fiabilité. Cette étape implique principalement l’implémentation fonctionnelle avec des extensions mineures aux pratiques actuelles.

Cette étape comprend la recherche, l’obtention d’insights et la création d’un inventaire de vos systèmes. Il utilise également des fonctionnalités de fiabilité intégrées sur Azure, telles que l’activation de la redondance de zone pour des améliorations immédiates.

En établissant ces principes de base, vous pouvez préparer votre équipe à passer par les niveaux du modèle de maturité de fiabilité afin d’améliorer progressivement la résilience et les performances de votre système.

Stratégies clés

Évaluer les opportunités de décharger la responsabilité opérationnelle
Identifier les flux utilisateur et système critiques
Sélectionner le modèle de conception, les ressources et les fonctionnalités appropriés
Déployer avec un niveau de redondance de base
Activer les métriques, les logs et les traces pour surveiller les flux
Commencer à créer un playbook d’atténuation des défaillances
Ajouter des mécanismes de récupération à partir d’échecs temporaires
Exécuter des tests de base

• Évaluer les opportunités de décharger la responsabilité opérationnelle

Cette stratégie est fondamentalement une approche de construction par rapport à des options d'achat ou de reliance. La décision dépend de la responsabilité gérable à ce stade tout en soutenant le développement futur. Vous souhaitez utiliser des ressources pertinentes pour la charge de travail, mais vous devez toujours explorer les opportunités de décharger leur maintenance. Voici quelques cas d’usage classiques où vous souhaiterez peut-être appliquer cette approche.

Déchargez les responsabilités sur la plateforme cloud en choisissant des solutions PaaS (Platform as a Service). Ils fournissent des solutions prêtes à l'emploi pour des besoins de résilience courants tels que la réplication, le basculement et les sauvegardes. Lorsque vous prenez cette approche, le fournisseur de cloud gère les améliorations apportées à l’hébergement, à la maintenance et à la résilience.

Par exemple, le fournisseur de cloud réplique des données sur plusieurs nœuds de calcul et distribue les réplicas entre les zones de disponibilité. Si vous créez votre propre solution sur des machines virtuelles, vous devez gérer ces aspects vous-même, ce qui peut prendre du temps et être complexe.
Déléguer les responsabilités pour les opérations qui ne sont pas directement liées aux objectifs métier de la charge de travail. Certaines opérations spécialisées, telles que la gestion et la sécurité de la base de données, peuvent avoir une incidence sur la fiabilité de votre charge de travail. Explorez la possibilité de faire gérer ces tâches par des équipes expérimentées, par la technologie ou par les deux.

Par exemple, si votre équipe n’a pas d’expertise en base de données, utilisez des services managés pour aider à transférer la responsabilité au fournisseur. Cette approche peut être utile lorsque vous démarrez, car elle permet à votre équipe de se concentrer sur les fonctionnalités de la charge de travail. De nombreuses entreprises ont partagé des services gérés de manière centralisée. Si des équipes de plateforme sont disponibles, utilisez-les pour gérer ces opérations. Toutefois, cette approche peut ajouter des dépendances et une complexité organisationnelle.

Sinon, si votre équipe a la bonne expertise, vous pouvez prendre une décision explicite d’utiliser ses compétences et sélectionner des services qui n’incluent pas de fonctionnalités de gestion.
Déchargez les responsabilités des fournisseurs non-Microsoft. Choisissez les produits hors étagère comme point de départ. Créez des solutions personnalisées uniquement lorsqu’elles contribuent à la valeur métier de votre charge de travail.

Risque: Si l’option d’achat ou de confiance répond partiellement à vos besoins, vous devrez peut-être implémenter des extensions personnalisées. Cette méthode peut entraîner une situation de « verrouillage de personnalisation », où les mises à jour et la modernisation deviennent irréalisables. Passez régulièrement en revue vos besoins et comparez-les aux fonctionnalités de la solution. Développez une stratégie de sortie pour le moment où il y a un écart significatif entre les deux.

Le scénario opposé est également un risque. Bien que l’option d’achat ou de confiance semble plus simple au début, elle peut nécessiter une nouvelle évaluation et une refonte ultérieurement si les limitations du service PaaS, de la solution fournisseur ou des ressources appartenant à la plateforme ne répondent pas à la granularité ou au niveau d’autonomie nécessaire pour la charge de travail.

✓ Identifier les flux critiques utilisateur et système

La décomposition de la charge de travail en flux est cruciale à ce stade. Concentrez-vous sur les flux utilisateur et système . Les flux utilisateur déterminent les interactions utilisateur et les flux système déterminent la communication entre les composants de charge de travail qui ne sont pas directement associés aux tâches utilisateur.

Par exemple, dans une application de commerce électronique, les clients effectuent des activités frontales telles que la navigation et la commande. Pendant ce temps, les transactions principales et les processus déclenchés par le système répondent aux demandes des utilisateurs et gèrent d’autres tâches. Ces flux distincts font partie du même système, mais ils impliquent différents composants et servent des objectifs différents.

Commencez à créer un catalogue de flux à ce stade. Observez les interactions utilisateur et la communication des composants. Répertoriez et catégorisez les flux, définissez leurs points de départ et de fin, et notez les dépendances. Documentez les résultats et les exceptions à l’aide de diagrammes pour plus de clarté. Ce catalogue peut servir d’outil important pour la conversation initiale avec les parties prenantes de l’entreprise afin d’identifier les aspects les plus importants de leur point de vue. Cette conversation peut informer le premier niveau de hiérarchisation.

Classifiez un flux comme critique en évaluant le risque et l’impact sur les activités principales de l’entreprise. Si vous prévoyez une panne, la dégradation progressive se concentre sur le maintien de ces flux critiques. Dans l’exemple de commerce électronique, les flux critiques incluent les recherches de produits, l’ajout d’éléments au panier et l’extraction, car ces tâches sont essentielles pour l’entreprise. D’autres processus, tels que la mise à jour des données de produit et la maintenance des images de produit, ne sont pas aussi critiques. Assurez-vous que les flux critiques restent opérationnels pendant une panne afin d’éviter toute perte de revenus en permettant aux utilisateurs de continuer à rechercher des produits et à ajouter des éléments au panier.

Remarque

Un processus métier peut être critique même s’il n’est pas sensible au temps. La criticité temporelle est un facteur clé. Par exemple, la conformité aux exigences d’audit est un processus critique, mais vous n’avez peut-être pas besoin de présenter immédiatement des données pour un audit. Le processus reste important, mais sa fiabilité n’est pas critique dans le temps, car la récupération dans quelques heures est acceptable.

Pour plus d’informations, consultez Azure Well-Architected Framework : Optimiser la conception de la charge de travail à l’aide de flux.

• Sélectionner le modèle de conception, les ressources et les fonctionnalités appropriés

Vous devez appliquer cette stratégie aux niveaux suivants :

Architecture: La conception de la charge de travail doit tenir compte des attentes en matière de fiabilité dans différentes couches d’infrastructure. Vos décisions initiales peuvent être le choix entre la conteneurisation ou PaaS pour l’hébergement de l’application. Vous pouvez également envisager des configurations réseau telles que hub-and-spoke ou un seul réseau virtuel.

Vous devez également définir des limites qui créent une segmentation basée sur les fonctionnalités. Par exemple, au lieu d’héberger tout sur une machine virtuelle avec un disque virtuel à zone unique, envisagez de fractionner le calcul et le stockage des données et d’utiliser des services dédiés.

Avertissement

Dans les scénarios de migration, l’adoption d’une approche lift-and-shift sans examiner les nouvelles opportunités peut entraîner des avantages manqués et des inefficacités. Il est important de rechercher rapidement la modernisation afin d’éviter d’être bloqué avec les configurations difficiles à modifier et de tirer parti de meilleures options et améliorations.
Services Azure : Utilisez des arbres de décision pour vous aider à sélectionner les services appropriés pour votre conception. Choisissez les composants qui répondent à vos besoins actuels, mais restent flexibles afin de pouvoir changer de service à mesure que votre charge de travail évolue et nécessite davantage de fonctionnalités.
Références SKU ou niveaux au sein des services Azure : Passez en revue les fonctionnalités de chaque référence SKU et comprenez les garanties de disponibilité de la plateforme. Évaluez les contrats de niveau de service pour comprendre la couverture fournie autour du centile publié.
Fonctionnalités qui prennent en charge la fiabilité : Choisissez des services cloud natifs pour améliorer la disponibilité via des configurations simples sans modifier le code. Il est important de comprendre les options et de sélectionner intentionnellement des configurations, telles que l’augmentation de la redondance de zone ou la réplication de données dans une région secondaire.

✓ Déployer avec un niveau de redondance de base

Dans chaque partie de votre solution, évitez les points de défaillance uniques, tels que les instances uniques. Créez plusieurs instances pour la redondance à la place. Les services Azure gèrent souvent la redondance pour vous, en particulier avec les services PaaS, qui incluent généralement la redondance locale par défaut et les options à mettre à niveau. De préférence, utilisez la redondance de zone pour répartir ces instances sur plusieurs centres de données Azure. Si ce n’est pas le cas, assurez-vous au moins la redondance locale, mais cette méthode présente un risque plus élevé. Dans les niveaux futurs, vous évaluez si vos exigences de fiabilité peuvent être satisfaites en étendant la solution avec des composants géoredondants.

Compromis: Un compromis important est l’augmentation du coût de la redondance. En outre, la communication interzone peut introduire une latence. Pour les applications héritées qui nécessitent une latence minimale, la redondance peut dégrader les performances.

Risque: Si une application n’est pas conçue pour un environnement à plusieurs instances, elle peut rencontrer des difficultés avec plusieurs instances actives, ce qui peut entraîner des données incohérentes. En outre, si une application est créée pour une configuration locale qui a une faible latence, l’utilisation de zones de disponibilité peut perturber ses performances.

• Activer les métriques, les logs et les traces pour surveiller les flux

Choisissez des outils natifs de la plateforme comme Azure Monitor pour garantir la visibilité sur les métriques, les journaux et les traces. Utilisez des fonctionnalités intégrées pour définir des alertes pour les problèmes potentiels. Vous devez disposer d’alertes de base en place pour envoyer des notifications et obtenir des alertes. Tirez parti des fonctionnalités de plateforme Azure qui indiquent les modifications apportées à l’état d’intégrité des services, telles que :

Azure Service Health pour vérifier l’état du système au niveau de la plateforme.
Azure Resource Health pour vérifier l’état de santé à l’échelle des ressources.

Configurez des groupes d’actions Azure Monitor pour l’infrastructure et l’application.

Compromis : À mesure que vous collectez plus de logs, vous devez gérer le volume croissant, ce qui affecte les coûts de stockage de ces logs. Utilisez des stratégies de rétention pour gérer le volume. Utilisez Azure Monitor pour définir une limite quotidienne sur un espace de travail. Pour plus d’informations, consultez les recommandations de configuration pour la fiabilité.

Commencez à créer une observabilité aux couches suivantes.

Infrastructure

Commencez par activer les journaux de diagnostic et assurez-vous de collecter des métriques natives à partir de composants de plateforme à des fins d’analyse. Rassemblez des informations sur l’utilisation des ressources, telles que l’UC, la mémoire, l’entrée/sortie et l’activité réseau.

Application

Collectez les métriques au niveau de l'application, telles que la consommation de mémoire ou la latence des requêtes, et journalisez les activités de l'application. Effectuez des opérations de journalisation dans un thread ou un processus distinct du thread d’application principal. Cette approche n’entraîne pas la journalisation à ralentir les tâches principales de l’application.

Vérifiez également les tests de disponibilité de base dans Application Insights.

Données

Pour surveiller les bases de données à un niveau de base, collectez les métriques clés émises par les ressources de base de données. Comme pour les composants d’infrastructure, effectuez le suivi de l’utilisation des ressources dans le contexte des magasins de données, tels que les indicateurs réseau. La collecte de données sur la façon dont les connexions sont mises en pool est importante pour améliorer l’efficacité à des étapes ultérieures.

Pour une fiabilité, il est important de suivre les métriques de connexion, telles que la surveillance des connexions actives et ayant échoué. Par exemple, dans Azure Cosmos DB, un code d’état 429 est retourné lorsque le nombre de requêtes dépasse les unités de requête allouées et que les connexions commencent à échouer.

✓ Commencer à créer un playbook d’atténuation des défaillances

Les défaillances varient des pannes intermittentes aux pannes temporaires légèrement prolongées et aux pannes catastrophiques.

Au niveau 1, concentrez-vous sur les défaillances de la plateforme. Même s’ils sont au-delà de votre contrôle, vous devriez toujours avoir des stratégies pour les gérer. Par exemple, traitez les pannes zonales à l’aide de zones de disponibilité. Anticiper les erreurs temporaires au niveau de la plateforme et les gérer dans votre charge de travail.

Le processus de gestion de ces défaillances varie en fonction de la complexité. Commencez à documenter les défaillances potentielles au niveau de la plateforme, leurs risques associés et les stratégies d’atténuation. Cet exercice est principalement théorique et mûrit avec l’automatisation à des niveaux ultérieurs.

Vous devez documenter les échecs, y compris les facteurs tels que leur probabilité, leur impact et leurs stratégies d’atténuation. Utilisez une échelle de criticité qui s’aligne sur les objectifs de votre charge de travail. Votre échelle peut inclure :

Élevé. Panne complète du système qui entraîne une perte financière significative et une baisse de confiance des utilisateurs.
Moyen. Une interruption temporaire qui affecte une partie de la charge de travail et provoque des inconvénients de l’utilisateur.
Faible. Un problème logiciel mineur qui affecte une fonctionnalité nonessential de l’application et provoque un temps d’arrêt minimal pour les utilisateurs.

Voici un exemple de modèle :

Problème	Risque	Origine	Sévérité	Vraisemblance	Atténuation
Échec réseau temporaire	Le client perd sa connexion au serveur d’applications.	Plateforme Azure	Élevé	Très probable	Utilisez des modèles de conception dans la logique côté client, comme la logique de nouvelle tentative et les disjoncteurs.
Panne de zone	L’utilisateur ne peut pas atteindre l’application.	Plateforme Azure	Élevé	Peu probable	Activez la résilience de zone sur tous les composants.
Expiration du certificat TLS (Transport Layer Security)	Le client ne peut pas établir de session TLS avec l’application.	Erreur humaine	Élevé	Probable	Utilisez la gestion automatisée des certificats TLS.
L’utilisation du processeur ou de la mémoire atteint des limites définies et provoque l’échec du serveur.	Les demandes expirent.	Application	Moyen	Probable	Implémenter des redémarrages automatiques.
Le composant n’est pas disponible pendant une mise à jour.	L’utilisateur rencontre une erreur non gérée dans l’application.	Déploiement ou modification de la configuration	Faible	Très probable pendant les déploiements et pas probablement à d’autres moments	Gérez les composants dans la logique côté client.

Au niveau 1, ne vous efforcez pas d'atteindre la complétude, car il y a toujours des cas d’échec imprévus. Si vous rencontrez des pannes inattendues, documentez les causes et les atténuations dans le playbook. Traitez cette ressource comme un document vivant que vous mettez à jour au fil du temps.

✓ Ajouter des mécanismes de récupération à partir d’échecs temporaires

Dans un environnement cloud, les défaillances temporaires sont courantes. Ils indiquent des problèmes à court terme que les nouvelles tentatives peuvent généralement résoudre en quelques secondes.

Utilisez des kits sdk et des configurations intégrés pour gérer ces erreurs pour maintenir le système actif. Les configurations intégrées sont souvent le paramètre par défaut. Vous devrez peut-être donc tester pour valider l’implémentation. Implémentez également des modèles conçus pour gérer les défaillances temporaires dans votre architecture. Pour plus d’informations, consultez Modèles de conception d’architecture qui prennent en charge la fiabilité.

Les problèmes persistants peuvent indiquer un échec qui n’est pas temporaire ou le début d’une panne. Ce scénario nécessite plus que de résoudre simplement les problèmes localisés au sein de l’application. Il s'agit d'examiner les flux critiques des utilisateurs et des systèmes et d'ajouter des techniques de préservation automatique ainsi que des stratégies de récupération. Ces méthodes sont des pratiques matures décrites par le niveau 2.

✓ Exécuter des tests de base

Intégrez les tests de fiabilité de base aux premières étapes du cycle de vie du développement logiciel. Recherchez les opportunités de test, en commençant par des tests unitaires pour valider les fonctionnalités et les configurations.

En outre, développez des cas de test simples pour les problèmes que vous identifiez dans le playbook d’atténuation des risques. Concentrez-vous sur un impact plus élevé, et réduisez les mesures d’atténuation des efforts. Par exemple, simuler des pannes réseau ou des problèmes de connectivité intermittente pour voir comment votre logique de nouvelle tentative résout les interruptions.

Risque: Les tests introduisent souvent des frictions dans le cycle de développement. Pour atténuer ce risque, effectuez des tests de fiabilité pouvant être suivis en même temps que les tâches de développement.

Le développement de fonctionnalités est la priorité et les tests peuvent introduire des frictions dans le cycle de développement. Il est plus facile de commencer à tester avant la fin du développement des fonctionnalités. La conception d’aspects non fonctionnels de l’application au début vous permet de les étendre au fur et à mesure que vous ajoutez des fonctionnalités fonctionnelles, plutôt que de créer un backlog de problèmes pour résoudre plus tard. Bien que cette approche nécessite plus d’efforts initialement, elle est gérable et empêche les problèmes plus importants ultérieurement.

Icône Objectif Vérifier que le système reste fonctionnel et stable en incorporant des fonctionnalités de conservation automatique et en ayant un plan de récupération de base pour gérer les défaillances.

Les défaillances dans le cloud sont inévitables. Vos stratégies de résilience doivent s’efforcer de maintenir le système fonctionnel dans toutes les conditions. Le niveau 1 introduit des méthodes pour résoudre les défaillances temporaires. Le niveau 2 se concentre sur l’incorporation de stratégies de préservation de soi pour empêcher, détecter et récupérer des défaillances plus durables. Si elle n’est pas résolue, ces problèmes peuvent se transformer en pannes complètes.

Les flux critiques que vous identifiez au niveau 1 prennent la priorité. Ils nécessitent une résilience et des efforts de récupération accrus pour tous les composants, notamment les applications, les services et les bases de données. Attendez-vous à ajuster vos tailles d’approvisionnement initiales, les nombres d’instances et les stratégies de mise à l’échelle automatique pour réduire les risques de fiabilité.

Dans ce niveau, soyez intentionnel sur vos pratiques de surveillance et de test. Utilisez des techniques de supervision avancées qui s’alignent sur les besoins techniques et sont étendues aux équipes de développement. Développez le playbook simple pour couvrir les composants architecturaux que vous développez et possédez, comme le code d’application.

Stratégies clés

Évaluer l’état actuel de résilience pour vous protéger contre les défaillances
Ajouter des fonctionnalités techniques dans votre système de supervision
Étendre votre guide de réduction des risques d'échec
Développer un plan de récupération de base
Créer des plans de test
Évaluer l’impact des opérations de mise à l’échelle sur la fiabilité

• Évaluer l’état actuel de résilience pour se protéger contre les défaillances

Le niveau de redondance est-il suffisant pour résister aux défaillances ? Définissez une stratégie de redondance qui spécifie le nombre de ressources redondantes à gérer. Déterminez où placer ces ressources, que ce soit localement, entre des zones ou dans des emplacements géographiquement distribués. Évaluez les paramètres de la plateforme cloud et sélectionnez un niveau répondant aux besoins de l’entreprise et aux compromis acceptables.
Les composants de charge de travail sont-ils suffisamment isolés pour contenir leurs défaillances ? Les modèles comme le modèle Bulkhead aident à renforcer la résilience et l’isolation des erreurs. Le modèle de cloisonnement partitionne un système en composants isolés, appelés bulkheads, pour empêcher les défaillances de cascader dans d’autres parties du système.
Les composants du chemin critique communiquent-ils de façon asynchrone ? Si ce n’est pas le cas, utilisez des méthodes de communication, telles que des files d’attente. Cette approche maintient le système opérationnel même si un composant en aval échoue. Il empêche également le système d’entrer dans un état indéterminé. Explorez les options Azure, notamment Azure Service Bus pour les files d’attente et Azure Event Hubs pour les flux d’événements.

Compromis: La communication asynchrone peut aider à empêcher les défaillances en cascade en découplant les processus. Toutefois, elle ajoute une latence dans le chemin de communication, ce qui peut poser un problème pour les composants critiques. Évaluez l’impact sur les performances avant d’apporter des modifications de modèle de conception.
Les opérations sont-elles conçues pour la cohérence ? Les ressources telles que les secrets et certificats d’application peuvent expirer et nécessiter une actualisation régulière. Les incohérences dans les mises à jour de routine peuvent entraîner des problèmes de fiabilité.

Dans l’idéal, identifiez et éliminez les tâches humaines en cours, car elles sont sujettes à des erreurs et peuvent entraîner des incohérences qui présentent des risques de fiabilité. Déchargez autant de tâches opérationnelles que possible sur le fournisseur de cloud. Par exemple, utilisez des identités managées que Microsoft Entra ID fournit et des certificats TLS (Transport Layer Security) gérés par Azure Front Door.

La surveillance est requise pour les mesures proactives, telles que le suivi de l’expiration du certificat et la réception de notifications. L’application doit consigner des événements importants, comme un certificat TLS proche de l’expiration. L’utilisation de plusieurs méthodes pour vérifier les défaillances potentielles permet de s’assurer que les actions nécessaires sont effectuées.

✓ Ajouter des fonctionnalités techniques dans votre système de supervision

Au niveau 1, vous avez collecté des données de surveillance à partir des composants de charge de travail, avec un focus sur l’infrastructure. L’analyse de base est terminée et les alertes de base sont définies. Cette configuration est essentielle pour comprendre les performances de référence des composants de charge de travail et identifier le comportement anormal.

Le niveau 2 effectue une surveillance plus poussée en ajoutant des fonctionnalités d’observabilité avancées à vos ressources de charge de travail et en adoptant une approche plus structurée pour analyser les données de surveillance. Tirez parti des outils d’analyse fournis par votre service cloud. Par exemple, les outils d’insights Azure Monitor, tels que VM Insights et Network Insights, fournissent des visualisations de l’état de santé et des performances à travers les dépendances.

Planifiez les capacités d'observabilité aux niveaux suivants.

Application

Répondez au sondage de l'état de santé. Permettre à l’application de répondre aux demandes de contrôle d’intégrité des sondes. L'application doit avoir des points de terminaison dédiés pour les vérifications de santé, qui fournissent au minimum des informations d'état telles qu'en bonne santé ou en mauvaise santé. Cette approche permet aux systèmes de surveillance d’évaluer si l’application fonctionne correctement et peut gérer les demandes, ou s’il existe des problèmes qui doivent être résolus.

Les services d'équilibrage de charge Azure, tels qu'Azure Front Door, Azure Traffic Manager, Azure Application Gateway et Azure Load Balancer, prennent en charge les sondes de santé. Les sondes d’intégrité envoient des demandes de contrôle d’intégrité aux applications.
Passez à la journalisation sémantique. Incluez des informations structurées sur les événements et les actions dans l’application. Avec la journalisation structurée, les données de journal sont enregistrées dans un format cohérent à l’aide d’un schéma bien défini. Ce schéma facilite la création d’automatisation, de recherche et d’analyse dans les phases ultérieures. Incluez des champs spécifiques tels que les horodatages et les codes d’erreur pour vous aider à identifier et résoudre rapidement les problèmes.
Implémentez le suivi distribué. Lorsqu’une demande transite par différents composants du système, il est important de capturer les données de trace entre les limites. Ces données sont utiles pour obtenir des informations sur le comportement de l’application et identifier les goulots d’étranglement, erreurs et problèmes de latence des performances. Azure Monitor prend en charge la collecte de données basée sur OpenTelemetry avec Application Insights.

Données

Suivez la durée des requêtes, les requêtes ayant échoué et d’autres métriques pertinentes. Les requêtes longues peuvent indiquer des contraintes de ressources et éventuellement une nécessité d’ajuster la conception du schéma.

À ce stade, votre base de données fonctionne depuis un certain temps. Faites attention au taux de croissance des données, en particulier dans les tables qui augmentent rapidement de façon inattendue. Ces informations sont cruciales pour planifier les besoins futurs de stockage et résoudre les problèmes de performances dès le début.
Surveillez l’état de la réplication de base de données à l’aide des outils et du tableau de bord fournis par le système de gestion de base de données. Par exemple, si vous utilisez Azure Cosmos DB, utilisez Azure Cosmos DB Insights. Pour Azure SQL Database ou Azure SQL Managed Instance, envisagez d’utiliser l’observateur de base de données pour obtenir des détails de diagnostic sur vos bases de données.

À mesure que la base de données augmente, les problèmes de schéma peuvent devenir plus apparents, ce qui affecte les performances. Pour optimiser l’efficacité des requêtes, envisagez d’ajouter des index ou de modifier le schéma, car ces modifications peuvent affecter la fiabilité.

Opérations

Le niveau 1 se concentre sur les couches précédentes. Au niveau 2, vous commencez à créer des opérations autour du système de surveillance.

Conservez les journaux suffisamment longtemps pour obtenir des informations. Du point de vue de la fiabilité, configurez la durée de rétention afin de pouvoir collecter suffisamment de données pour détecter les modèles d’échec, résoudre les problèmes et effectuer une analyse de la cause racine.
Surveillez les processus de sauvegarde et de récupération. Vérifiez que les sauvegardes sont correctement stockées dans des emplacements comme prévu et que les données de charge de travail sont récupérées dans un délai raisonnable. La surveillance de ces processus est importante pour définir des lignes de base pour vos métriques d’objectif de point de récupération (RPO) à des niveaux ultérieurs.

- Étendre votre guide d’atténuation des défaillances

Le niveau 1 se concentre sur les échecs de plateforme attendus. Au niveau 2, vous résolvez les points d’échec sur les composants et les opérations au sein de votre propre charge de travail. À mesure que votre code s’exécute sur la plateforme, les points d’interaction entre la plateforme et l’application augmentent. Attendez-vous à des échecs de bogues dans votre code, à des déploiements infructueuses et à des erreurs humaines. Réduisez ces problèmes en utilisant des tactiques de préservation ou de récupération.

Étendez votre playbook d’atténuation des défaillances pour inclure des bogues et des problèmes de déploiement. Le tableau suivant s’appuie sur le modèle de niveau 1 :

Problème	Risque	Origine	Sévérité	Vraisemblance	Atténuation
Le code ne gère pas une remise des messages au moins une fois.	Le traitement en double des messages à partir du bus entraîne une altération des données.	Application	Élevé	Probable	- Reconcevoir pour utiliser le partitionnement de bus et intégrer l'idempotence dans le processus. - S’éloigner d’un modèle de consommateurs concurrent, ce qui rend les performances un compromis.
Le script de sauvegarde de stockage quotidien ne peut pas s’exécuter.	Le RPO est violé car les données sont antérieures à 24 heures.	Processus automatisé	Élevé	Peu probable	Configurez une alerte sur le processus de sauvegarde.
Après une nouvelle version, il y a des pics d'utilisation et de nouveaux utilisateurs réguliers.	Les performances des applications se dégradent et les requêtes des utilisateurs expirent.	Application	Élevé	Peu probable	Configurez les opérations de Scale-out basées sur la planification.
Un bogue de concurrence est présent dans le code.	Comportement imprévisible et altération possible des données.	Application	Élevé	Probable	Utilisez des formes sécurisées de concurrence et évitez la gestion manuelle des contrôles d’accès concurrentiel.
Une défaillance inattendue pendant le déploiement laisse l’environnement dans un état incohérent.	Panne de l’application.	Pipelines de déploiement	Moyen	Probable	Utilisez des déploiements bleu-vert, des déploiements en canari, ou d'autres méthodes pour appliquer progressivement les changements.

Cet exercice peut devenir écrasant si vous essayez de tenir compte de chaque échec possible. Pour faciliter la tâche, concentrez-vous sur les composants qui font partie des flux utilisateur critiques. Ce document vivant continue de croître à mesure que la charge de travail arrive à maturité.

✓ Développer un plan de récupération de base

Le manuel d’atténuation des défaillances est la base de la création d’un plan de reprise de base. Les stratégies d’atténuation peuvent inclure l’implémentation du modèle de conception, les ajustements de configuration de la plateforme, la gestion des incidents de site en direct, les tests automatisés et le personnel de formation pour détecter les problèmes pendant les révisions de code.

Commencez par une stratégie de dégradation normale, qui inclut des correctifs temporaires lorsque des parties du système ne fonctionnent pas correctement. L’objectif est de continuer à servir les utilisateurs malgré les échecs en désactivant les parties non travaillées et en ajustant l’expérience utilisateur. Par exemple, si une base de données est en panne, l’application peut désactiver la fonctionnalité affectée et informer les clients que le service est temporairement indisponible à l’aide de codes d’état HTTP.

Pour que la dégradation progressive fonctionne, isolez les composants du système de sorte qu'uniquement les parties affectées rencontrent des problèmes tandis que le reste des composants continue de fonctionner. Utilisez le modèle Bulkhead pour assurer l'isolation des défauts.

Prenez cette occasion revisiter les choix de conception susceptibles de ralentir la récupération. Par exemple, le pointage des enregistrements DNS (Domain Name System) directement vers votre application sur Azure App Service peut entraîner des retards lors de la récupération en raison de la propagation DNS. Utilisez un service dédié comme Azure Front Door comme point d’entrée pour faciliter la reconfiguration pendant les étapes de récupération.

Attendez-vous à ce que ce plan de base évolue dans un plan de récupération d’urgence complet à des niveaux plus matures.

✓ Créer des plans de test

Créez des plans de test en simulant des pannes et des problèmes identifiés dans le playbook d’atténuation des risques. Compléter ces atténuations avec des cas de test simples pour s’assurer qu’elles fonctionnent comme prévu et sont réalisables. Vérifiez que ces fonctionnalités fonctionnent correctement et effectuent des tests de dégradation pour voir comment le système fonctionne quand des composants spécifiques échouent. Gardez le résultat simple en veillant à ce que le test échoue ou réussisse.

Utilisez des outils de test comme des frameworks fictifs pour injecter des erreurs dans des requêtes HTTP, ce qui vous aide à tester les stratégies de nouvelle tentative plus explicitement. Azure Chaos Studio fournit une suite de test complète pour simuler des pannes de composants et d’autres problèmes, ce qui en fait un service précieux à explorer. Vous pouvez adopter progressivement Chaos Studio au fur et à mesure que vous connaissez ses fonctionnalités.

• Évaluer l’impact des opérations de mise à l’échelle sur la fiabilité

Pour gérer les pics de charge, les composants critiques doivent pouvoir effectuer un scale-out ou un scale-up efficace. Tirez parti des fonctionnalités de mise à l’échelle automatique qu’Azure fournit. Ces fonctionnalités ajustent les limites de capacité d’un service en fonction des configurations prédéfinies. Cet ajustement vous permet d’effectuer un scale-up ou un scale-down du service en fonction des besoins.

Identifiez les goulots d’étranglement potentiels et comprenez les risques qu’ils peuvent présenter. Par exemple, le débit élevé ne doit pas entraîner la panne du flux.
Comprendre les modèles de charge. Les modèles d’utilisation statique peuvent réduire les goulots d’étranglement, mais les modifications apportées à l’utilisation et à la dynamique de la consommation peuvent aggraver les risques.

Remarque

Il peut y avoir des composants qui ne peuvent pas être mis à l’échelle, tels que des bases de données monolithiques et des applications héritées. Surveillez de manière proactive la courbe de charge pour permettre une nouvelle architecture si nécessaire.
Déterminez les limites de mise à l’échelle raisonnables en fonction des exigences de performances et de fiabilité. Pour des raisons de performance, l'augmentation progressive de l'échelle est la plus courante. Toutefois, les préoccupations en matière de fiabilité pour les flux critiques peuvent nécessiter une mise à l’échelle plus rapide pour éviter les pannes. Dans les deux cas, évitez une mise à l’échelle infinie.

Risque: Lorsque vous rencontrez des problèmes liés aux performances, la mise à l’échelle peut être une stratégie d’atténuation utile. Toutefois, la mise à l’échelle est un correctif temporaire et non une solution. Examinez et résolvez le problème sous-jacent, tel qu’une fuite de mémoire ou un processus de fuite. Sinon, vous risquez d’appliquer à nouveau la même atténuation à un autre point de basculement et de payer pour les ressources dont vous n’avez pas besoin. En traitant la cause racine, vous pouvez garantir la stabilité à long terme et l’efficacité des coûts.

Icône Objectif Définir des objectifs et des cibles de fiabilité pour que l’équipe reste responsable sur les procédures de récupération.

À des niveaux précoces, vos équipes se concentrent sur des gains faciles et des fonctionnalités de base. Ils commencent par de petites améliorations, résolvent des problèmes simples pour créer une base solide tout en s’appuyant principalement sur les fonctionnalités de fiabilité Azure. À mesure que vos équipes évoluent, elles gèrent des défis plus techniques liés à leurs propres ressources et processus.

Au niveau 3, vos équipes doivent intégrer des insights métier et des compétences techniques pour la planification de la récupération. Ils définissent des objectifs et planifient des processus de récupération à l’aide d’une surveillance avancée. Cette approche permet aux ingénieurs de fiabilité de site de répondre rapidement aux objectifs de fiabilité.

Stratégies clés

Formaliser les fonctionnalités de fiabilité en tant qu’objectifs
Surveillez de manière proactive à l’aide de votre modèle santé
Définir des alertes actionnables
Effectuer une analyse du mode d’échec
Préparer un plan de reprise après sinistre

✓ Formaliser les capacités de fiabilité en tant qu’objectifs

Les objectifs de fiabilité aident à définir la responsabilité des équipes de charge de travail. Il est important d’avoir une conversation collaborative avec les parties prenantes de l’entreprise pour discuter des temps de récupération et des coûts, et de faire des compromis qui s’alignent sur les objectifs de l’entreprise. Rassemblez les parties prenantes et organisez cette discussion en tant qu’atelier. Tenez compte des points suivants pour l’ordre du jour de l’atelier :

Expliquer les métriques derrière les objectifs. Commencez par expliquer les métriques clés utilisées pour définir des objectifs tels que des objectifs de niveau de service, des objectifs de temps de récupération (RTO) et des objectifs de point de récupération (RPO). Montrez comment ces métriques s’alignent sur les objectifs métier. Concentrez-vous sur les flux utilisateur critiques. Par exemple, dans une application d’e-commerce, l’objectif de temps de récupération pour la mise à jour des préférences de messagerie est moins important que le passage de la commande par les utilisateurs.
Communiquez les compromis. Les parties prenantes s’attendent souvent plus que ce qui peut être réalisé. Expliquez comment l’expansion de l’étendue affecte le budget, les exigences opérationnelles et les performances.
Proposer des cibles objectives. En fonction de l’expérience architecturale et de la conception de la charge de travail, recommandez des cibles telles que 99,9 % de disponibilité, avec l’objectif de point de récupération et l’objectif de temps de récupération définis à quatre heures. Faciliter une discussion pour les parties prenantes afin de fournir des commentaires et d’apporter des ajustements. Assurez-vous que les parties prenantes commerciales et techniques se gardent contre les attentes irréalistes. Approchez les discussions avec un état d’esprit collaboratif.
Atteindre un consensus ou une décision. Visez un consensus, mais si cela n’est pas possible, qu’un décideur finalise les objectifs pour assurer la progression.

• Surveiller de manière proactive à l’aide de votre modèle de santé

Au niveau 1, les données de surveillance sont collectées à partir de composants de charge de travail, notamment les services de plateforme et les applications. L’analyse de base et les alertes sont définies pour établir les performances de référence et identifier les anomalies. Au niveau 2, le focus passe à l’obtention de données d’observabilité à partir de composants de charge de travail, tels que le code d’application.

Le niveau 3 améliore la surveillance en ajoutant le contexte métier aux flux critiques et en définissant des états sains, non sains et détériorés par le biais de la modélisation de l’intégrité. L'accord des parties prenantes est nécessaire pour déterminer les compromis acceptables concernant l'expérience utilisateur et doit être utilisé comme entrée pour définir les états de santé.

La modélisation de la santé nécessite une maturité opérationnelle et une expertise dans les outils de surveillance. Votre équipe examine les données brutes, les niveaux de performances et les journaux pour créer des métriques et des seuils personnalisés qui définissent l’état d’intégrité du flux. Ils doivent comprendre comment ces valeurs sont liées à l’intégrité globale du système. Communiquez des définitions et des seuils clairs aux parties prenantes.

Visualisez le modèle d’intégrité dans les tableaux de bord pour aider les ingénieurs de fiabilité à identifier rapidement les problèmes en mettant l’accent sur des flux non sains ou détériorés.

Le modèle d’intégrité définit l’état de l’application et les flux critiques. Vert indique que tous les flux critiques fonctionnent comme prévu. Rouge indique un échec. Et le jaune montre les tendances vers les problèmes. L'itération à travers les versions du modèle de santé garantit la fiabilité et la précision, mais nécessite un effort important pour les applications volumineuses.

Une modification de l’état de santé doit être configurée sous forme d’alerte. Toutefois, pour conserver les alertes intentionnelles, la criticité du composant doit être prise en compte.

Pour plus d’informations, consultez Well-Architected Framework : Modélisation de la santé.

✓ Définir des alertes actionnables

Pour améliorer l’efficacité de la réponse, définissez clairement les alertes et fournissez suffisamment d’informations pour une action rapide. Les noms et descriptions d’alertes détaillés peuvent vous aider à gagner du temps et des efforts pendant la résolution des problèmes. Configurez soigneusement la sévérité, le nom et la description, avec une attention particulière aux niveaux de sévérité. Chaque événement n’est pas une urgence. Évaluez de manière réfléchie les niveaux de gravité et établissez des critères pour chaque niveau, par exemple si un pic de processeur de 80% à 90% se qualifie comme une urgence. Définissez les seuils appropriés pour vous assurer que les alertes sont définies efficacement.

Une gestion efficace des alertes garantit que les alertes informent les bonnes personnes au bon moment. Les alertes fréquentes et perturbatrices indiquent un besoin d’ajustement et peuvent devenir contre-productives lorsqu’elles sont ignorées. Réduisez les notifications inutiles en définissant les seuils appropriés pour filtrer les fausses alarmes. Identifiez les opportunités où l’automatisation peut déclencher des procédures opérationnelles.

Créez une page d’accueil unique qui contient les informations nécessaires pour résoudre efficacement les problèmes d’alertes. Cette approche permet de gagner du temps par rapport à la connexion au portail Azure et à la recherche de métriques. Si les fonctionnalités intégrées d’Azure Monitor ne répondent pas entièrement à vos besoins, envisagez de développer un tableau de bord personnalisé.

✓ Effectuer une analyse du mode d’échec

Dans les niveaux précédents, vous avez créé un playbook d’atténuation des défaillances simple pour les composants individuels. À ce niveau, faites évoluer ce playbook en un exercice d’analyse formelle du mode d’échec (FMA). L’objectif de cet exercice est d’identifier de manière proactive les modes d’échec potentiels.

FMA vous oblige à identifier les points de défaillance potentiels au sein de votre charge de travail et à planifier des actions d’atténuation, telles que l'auto-réparation ou la reprise après sinistre. Pour commencer, surveillez les taux d’erreur accrus et détectez les impacts sur les flux critiques. Utilisez les expériences passées et les données de test pour identifier les défaillances potentielles et évaluer leur rayon d’explosion. Hiérarchiser les problèmes majeurs tels qu’une panne à l’échelle de la région.

Il est important de classer les actions comme préventives ou réactives. Les actions préventives identifient les risques avant qu’elles ne provoquent une panne, ce qui réduit leur probabilité ou leur gravité. Les actions réactives traitent les problèmes pour atténuer un état de santé dégradé ou une panne.

Dans l’exemple d’application de commerce électronique, l’équipe de charge de travail souhaite effectuer une FMA pour se préparer à un événement majeur. L’un des flux utilisateur clés ajoute des éléments au panier. Les composants qui font partie du flux sont le front-end, CartAPI, ProductCatalogAPI, UserProfileAPI, PricingAPI, Azure Cosmos DB et Azure Event Hubs.

Problème	Risque	Source potentielle	Sévérité	Vraisemblance	Actions
Le nombre de commandes reçues est inférieur à 100 par heure, sans aucune baisse correspondante de l’activité de session utilisateur	Les clients ne peuvent pas passer de commandes, même si l’application est disponible.	CartAPI, PaymentsAPI	Élevé	Peu probable	Actions réactives : - Passez en revue le modèle de santé ou les données de surveillance pour identifier le problème. - Testez l’application pour valider ses fonctionnalités. - Si une panne de composant se produit, effectuez un basculement vers un autre ensemble d’infrastructure. Actions préventives : - Passez des commandes synthétiques pour vérifier que le flux fonctionne. - Améliorez l’observabilité pour vous assurer que le flux de bout en bout est surveillé.
Une augmentation inattendue de la charge provoque des délais d’expiration lors du stockage des commandes dans Azure Cosmos DB	Les clients ne peuvent pas passer de commandes ni recevoir des performances insatisfaisantes s’ils peuvent passer des commandes.	Base de données Azure Cosmos DB	Élevé	Peu probable	Actions réactives : - Vérifiez la charge en fonction de la télémétrie de l’application. - Augmentez temporairement les unités de requête Azure Cosmos DB. Actions préventives : - Configurer la mise à l’échelle automatique. - Revisitez la charge attendue et recalculez les règles d’échelle. - Déplacez certaines activités vers un processus en arrière-plan pour réduire la charge de la base de données à partir de ce flux.
Le service recommandations est complètement hors connexion	La page du panier d’achat ne parvient pas à se charger en raison d’une exception qui appelle le service de recommandations.	Application	Moyen	Peu probable	Actions réactives : - Implémentez une stratégie de dégradation appropriée pour désactiver la fonctionnalité de recommandation ou afficher des données de recommandation codées en dur sur la page du panier d’achat. Appliquez cette approche lorsqu’une exception se produit pendant l’évaluation du service.
Des délais d’expiration intermittents se produisent lors de l’accès à l’API de tarification à partir de la page du panier d’achat sous forte charge	Des défaillances intermittentes se produisent sur la page du panier en raison de pannes lors de l'accès au service de panier.	Application	Moyen	Probable (sous charge lourde)	Actions réactives : - Implémentez la valeur de tarification du cache dans le magasin de données du panier, ainsi qu’un timestamp d’expiration du cache. - Accédez à l’API de tarification uniquement lorsque le cache de données de tarification a expiré.

FMA est complexe et peut prendre du temps, alors construisez votre analyse progressivement. Ce processus est itératif et continue à évoluer à des stades ultérieurs.

Pour plus d’informations, consultez RE:03 Recommandations pour effectuer une FMA.

✓ Préparer un plan de récupération après sinistre

Au niveau 2, vous avez créé un plan de récupération axé sur les contrôles techniques pour restaurer les fonctionnalités système. Toutefois, une catastrophe nécessite une approche plus large en raison d’une perte ou d’une défaillance catastrophiques. Les plans de reprise après sinistre sont basés sur des processus. Ils couvrent la communication, les étapes de récupération détaillées et peuvent inclure des artefacts techniques tels que des scripts.

Tout d’abord, identifiez les types de sinistres à planifier, tels que les pannes de région, les défaillances à l’échelle d’Azure, les interruptions d’infrastructure, la corruption de base de données et les attaques par ransomware. Ensuite, développez des stratégies de récupération pour chaque scénario et assurez-vous que les mécanismes sont en place pour restaurer les opérations. Les exigences métier, les RTO et les RPO doivent guider les plans de récupération d’urgence. Les RPO et les RPO faibles nécessitent des processus automatisés explicites, tandis que des RPO et des RPO plus élevés permettent de simplifier les méthodes de récupération et l’analyse manuelle.

Les DR incluent principalement ce qui suit :

Informez les parties responsables. Il est important d’avoir de la clarté sur les personnes à impliquer et quand. Assurez-vous que votre équipe utilise les processus appropriés, dispose des autorisations appropriées et comprend leurs rôles dans la récupération. Certaines responsabilités, telles que le PDG présentant des rapports au marché ou traitant des exigences réglementaires, devraient être identifiées au plus tôt.

Dans l’idéal, vous devez disposer de rôles de récupération et de communication distincts et attribuer des personnes différentes à chaque rôle. Initialement, la personne chargée des opérations informatiques qui découvre le problème peut gérer les deux rôles. Mais à mesure que la situation augmente, le personnel supérieur peut gérer la récupération technique pendant qu’une personne d’entreprise gère les communications.
Prenez des décisions commerciales. Au cours d’une catastrophe, les niveaux de stress peuvent être élevés, ce qui rend la prise de décision claire essentielle. Un plan de récupération d’urgence bien structuré nécessite des discussions continues entre l’équipe technique et les parties prenantes de l’entreprise pour définir des options de décision préliminaires. Par exemple, déterminez si les ressources de charge de travail doivent s’exécuter dans une région Azure avec des sauvegardes dans une autre région, ou si les ressources IaC doivent être préparées à l’avance pour créer de nouvelles ressources ou restaurer à partir d’une sauvegarde pendant le basculement.

Les mesures prises selon les plans de récupération d’urgence peuvent être destructrices ou avoir des effets secondaires importants. Il est essentiel de comprendre les options, de peser leurs avantages et leurs inconvénients, et de déterminer le bon moment pour les appliquer. Par exemple, évaluez si la récupération dans une autre région est nécessaire si la région primaire est censée être opérationnelle dans un délai acceptable.
Restaurer les opérations système. Lors d’un sinistre, le focus doit être mis sur la restauration des opérations et non sur l’identification de la cause. Pour la récupération technique, en particulier dans le basculement régional, décidez à l’avance des approches comme actif/actif, actif/passif, secours semi-automatique ou reprise progressive.

Préparez des étapes de récupération spécifiques en fonction de l’approche choisie. Commencez par une liste concrète des étapes de restauration. À mesure que le processus arrive à maturité, visez à définir le plan de récupération d’urgence en tant que script avec une interaction manuelle minimale. Utilisez le contrôle de version et stockez le script de manière sécurisée pour faciliter l’accès. Cette approche nécessite un effort plus rapide, mais réduit le stress pendant un incident réel.

Pour plus d’informations, consultez Déployer en mode actif-passif pour le Plan de Reprise d'Activité (PRA).
Effectuez une analyse post-incident. Identifiez la cause de l’incident et trouvez des moyens de l’empêcher à l’avenir. Apportez des modifications pour améliorer les processus de récupération. Cet exercice peut également découvrir de nouvelles stratégies. Par exemple, si le système est passé à l’environnement secondaire, déterminez si l’environnement principal est encore nécessaire et quel processus de retour au système principal doit être appliqué.

Un plan de récupération d’urgence est un document vivant qui s’adapte aux modifications de votre charge de travail. Mettez à jour votre plan de DR à mesure que de nouveaux composants et risques émergent. Affinez le plan en fonction des informations obtenues lors des exercices ou des catastrophes réelles en collectant des données pertinentes auprès des opérateurs de DR.

Étapes suivantes

Passez en revue la liste de contrôle de révision de la conception de fiabilité pour obtenir des détails sur les recommandations.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2025-07-28

Partager via

• Évaluer les opportunités de décharger la responsabilité opérationnelle

✓ Identifier les flux critiques utilisateur et système

• Sélectionner le modèle de conception, les ressources et les fonctionnalités appropriés

✓ Déployer avec un niveau de redondance de base

• Activer les métriques, les logs et les traces pour surveiller les flux

Infrastructure

Application

Données

✓ Commencer à créer un playbook d’atténuation des défaillances

✓ Ajouter des mécanismes de récupération à partir d’échecs temporaires

✓ Exécuter des tests de base

• Évaluer l’état actuel de résilience pour se protéger contre les défaillances

✓ Ajouter des fonctionnalités techniques dans votre système de supervision

Application

Données

Opérations

- Étendre votre guide d’atténuation des défaillances

✓ Développer un plan de récupération de base

✓ Créer des plans de test

• Évaluer l’impact des opérations de mise à l’échelle sur la fiabilité

✓ Formaliser les capacités de fiabilité en tant qu’objectifs

• Surveiller de manière proactive à l’aide de votre modèle de santé

✓ Définir des alertes actionnables

✓ Effectuer une analyse du mode d’échec

✓ Préparer un plan de récupération après sinistre

✓ Gestion fiable des changements

• Investir dans une équipe dédiée pour gérer les incidents

✓ Automatiser les processus d'auto-réparation

✓ Étendre la résilience aux tâches en arrière-plan

✓ Utiliser des insights de fiabilité pour guider l’évolution de l’architecture

✓ Exécuter des tests contrôlés en production

• Effectuer des exercices de récupération d’urgence

✓ Évaluer votre modèle de données et un segment si nécessaire

Partager via

Modèle de maturité de fiabilité

• Évaluer les opportunités de décharger la responsabilité opérationnelle

✓ Identifier les flux critiques utilisateur et système

• Sélectionner le modèle de conception, les ressources et les fonctionnalités appropriés

✓ Déployer avec un niveau de redondance de base

• Activer les métriques, les logs et les traces pour surveiller les flux

Infrastructure

Application

Données

✓ Commencer à créer un playbook d’atténuation des défaillances

✓ Ajouter des mécanismes de récupération à partir d’échecs temporaires

✓ Exécuter des tests de base

Étapes suivantes

Commentaires

Ressources supplémentaires