Partager via


Protéger votre patrimoine cloud

Cet article fournit les meilleures pratiques pour maintenir la fiabilité et la sécurité de votre patrimoine cloud Azure. La fiabilité garantit que vos services cloud restent opérationnels avec un temps d’arrêt minimal. La sécurité protège la confidentialité, l’intégrité et la disponibilité de vos ressources. La fiabilité et la sécurité sont essentielles pour les opérations cloud réussies.

Diagramme montrant le processus de gestion du CAF : prêt, administrer, surveiller et protéger (RAMP).

Gérer la fiabilité

La gestion de la fiabilité implique l’utilisation de stratégies de redondance, de réplication et de récupération définies pour réduire les temps d’arrêt et protéger votre entreprise. Le tableau 1 fournit un exemple de trois priorités de charge de travail, des exigences de fiabilité (SLO de temps d’activité, temps d’arrêt maximal, redondance, équilibrage de charge, réplication) et des exemples de scénarios qui s’alignent sur les objectifs de niveau de service (SLA)

Tableau 1. Exemple de priorité de charge de travail et de exigences de fiabilité.

Priorité Impact sur l’entreprise Objectif de niveau de service de durée minimale de bon fonctionnement Temps d’arrêt maximal par mois Redondance de l’architecture Équilibrage de la charge Réplication et sauvegardes de données Exemple de scénario
Élevé (critique) Effets immédiats et graves sur la réputation ou le chiffre d’affaires de l’entreprise. 99,99 % 4,32 minutes Multi-région et plusieurs zones de disponibilité dans chaque région Actif/actif Réplication de données interrégions synchrones et sauvegardes pour la récupération Base de référence critique pour la mission
Moyenne Effets mesurables sur la réputation ou le chiffre d’affaires de l’entreprise. 99,9 % 43,20 minutes Plusieurs régions et plusieurs zones de disponibilité dans chaque région Actif/Passif Réplication asynchrone des données inter-régions et sauvegardes pour la récupération Modèle d’application web fiable
Bas Aucun effet sur la réputation de l’entreprise, les processus ou les bénéfices. 99 % 7,20 heures Région unique et zones de disponibilité multiples Redondance de zone de disponibilité Réplication des données synchrones entre les zones de disponibilité et les sauvegardes pour la récupération Niveau de référence App Service
Base de référence de la machine virtuelle

Identifier les responsabilités de fiabilité

Les responsabilités de fiabilité varient selon le modèle de déploiement. Utilisez le tableau suivant pour identifier vos responsabilités de gestion pour l’infrastructure (IaaS), la plateforme (PaaS), les logiciels (SaaS) et les déploiements locaux.

Responsabilité Sur site IaaS (Azure) PaaS (Azure) SaaS
Données ✔️ ✔️ ✔️ ✔️
Code et runtime ✔️ ✔️ ✔️
Ressources de cloud ✔️ ✔️ ✔️
Matériel physique ✔️

Pour plus d’informations, consultez Responsabilité partagée pour la fiabilité.

Définir les exigences de fiabilité

Les exigences de fiabilité clairement définies sont essentielles pour les cibles de temps d’activité, la récupération et la tolérance de perte de données. Procédez comme suit pour définir les exigences de fiabilité :

  1. Hiérarchiser les charges de travail. Attribuez des priorités élevées, moyennes (par défaut) ou faibles aux charges de travail en fonction de la criticité de l’entreprise et des niveaux d’investissement financier. Passez régulièrement en revue les priorités pour maintenir l’alignement avec les objectifs métier.

  2. Attribuez un objectif de niveau de service de temps d’activité (SLO) à toutes les charges de travail. Votre SLO influence votre architecture, vos stratégies de gestion des données, vos processus de récupération et vos coûts. Établissez des cibles de temps d’activité en fonction de la priorité de la charge de travail. Les charges de travail de priorité supérieure nécessitent des objectifs de temps d’activité plus stricts.

  3. Identifier les indicateurs de niveau de service (SLI). Utilisez des SLI pour mesurer les performances de temps d’activité par rapport à votre SLO. Les exemples incluent la surveillance de l’intégrité du service et les taux d’erreur.

  4. Affectez un objectif de temps de récupération (RTO) à toutes les charges de travail. Le RTO définit le temps d’arrêt maximal acceptable pour votre charge de travail. Le RTO doit être inférieur à votre temps d’arrêt annuel autorisé. Par exemple, un temps d’activité SLO 99,99% nécessite moins de 52 minutes de temps d’arrêt annuel (4,32 minutes par mois). Pour affecter un RTO, procédez comme suit :

    1. Estimez le nombre de pannes par an. Pour les charges de travail avec un historique opérationnel, utilisez vos SLI. Pour les nouvelles charges de travail, effectuez une analyse du mode d’échec pour obtenir une estimation précise.

    2. Estimer le RTO. Divisez votre temps d’arrêt annuel autorisé par le nombre estimé de défaillances. Si vous estimez quatre échecs par an, votre RTO doit être de 13 minutes ou moins (52 minutes / 4 échecs = 13 minutes RTO).

    3. Testez votre temps de récupération. Suivez le temps moyen nécessaire à la récupération pendant les tests de basculement et les échecs en direct. Le temps qu’il vous faut pour récupérer d’un échec doit être inférieur à votre RTO.

  5. Définissez les objectifs de point de récupération (RPO) pour toutes les charges de travail. Votre RPO influence la fréquence à laquelle vous répliquez et sauvegardez vos données. Déterminez la quantité de perte de données que votre entreprise peut tolérer.

  6. Définissez des cibles de fiabilité de charge de travail. Pour connaître les cibles de fiabilité des charges de travail, consultez les recommandations de Well-Architected Framework pour définir des cibles de fiabilité.

Gérer la fiabilité des données

La fiabilité des données implique la réplication des données (réplicas) et les sauvegardes (copies de points dans le temps) pour maintenir la disponibilité et la cohérence. Consultez le tableau 2 pour obtenir des exemples de priorité de charge de travail alignés sur les cibles de fiabilité des données.

Tableau 2. Priorité de la charge de travail avec des exemples de configurations de fiabilité des données.

Priorité de la charge de travail Objectif de niveau de service de durée de bon fonctionnement Réplication des données Sauvegardes de données Exemple de scénario
Élevé 99,99 % Réplication synchrone des données entre les régions

Réplication synchrone des données entre les zones de disponibilité
Sauvegardes multirégions à une fréquence élevée La fréquence doit tenir compte du RTO et du RPO. Plateforme de données stratégique
Moyenne 99,9 % Réplication synchrone des données entre les régions

Réplication synchrone des données entre les zones de disponibilité
Sauvegarde multirégion La fréquence doit tenir compte du RTO et du RPO. Solution de base de données et de stockage dans le modèle Reliable Web App
Bas 99 % Réplication synchrone des données entre les zones de disponibilité Sauvegarde multirégion La fréquence doit tenir compte du RTO et du RPO. Résilience des données dans l’application web de référence avec redondance de zone

Vous devez aligner les configurations de fiabilité des données avec les exigences RTO et RPO de vos charges de travail. Pour effectuer cet alignement, procédez comme suit :

  1. Gérer la réplication des données. Répliquez vos données de manière synchrone ou asynchrone en fonction des exigences RTO et RPO de votre charge de travail.

    Répartition des données Réplication des données Configuration de l’équilibrage de charge
    Entre plusieurs zones de disponibilité Synchrone (quasiment en temps réel) La plupart des services PaaS gèrent l’équilibrage de charge interzone en mode natif
    Entre plusieurs régions (actif/actif) Synchrone Équilibrage de charge actif/actif
    À travers les régions (actif-passif) Asynchrone (périodique) Configuration active-passive

    Pour plus d’informations, consultez Réplication : Redondance pour les données.

  2. Gérer les sauvegardes de données. Les sauvegardes sont destinées à la récupération d’urgence (défaillance du service), à la récupération des données (suppression ou altération) et à la réponse aux incidents (sécurité). Les sauvegardes doivent prendre en charge vos besoins RTO et RPO pour chaque charge de travail. Préférez les solutions de sauvegarde intégrées à votre service Azure, telles que les fonctionnalités de sauvegarde natives dans Azure Cosmos DB et Azure SQL Database. Lorsque les sauvegardes natives ne sont pas disponibles, y compris les données locales, utilisez sauvegarde Azure. Pour plus d’informations, consultez Le Centre de sauvegarde et de continuité d’activité Azure.

  3. Concevoir la fiabilité des données de charge de travail. Pour la conception de la fiabilité des données de charge de travail, consultez le guide de partitionnement des données Well-Architected Framework et les guides de service Azure (commencez par la section Fiabilité).

Gérer la fiabilité du code et du runtime

La fiabilité du code et du runtime est une responsabilité de charge de travail. Suivez le guide d’auto-guérison et de préservation des Well-Architected Framework.

Gérer la fiabilité des ressources cloud

La gestion de la fiabilité de vos ressources cloud nécessite souvent une redondance d’architecture (instances de service en double) et une stratégie d’équilibrage de charge efficace. Consultez le tableau 3 pour obtenir des exemples de redondance d’architecture alignées sur la priorité de la charge de travail.

Tableau 3. Exemples de priorité de charge de travail et de redondance d’architecture.

Priorité de la charge de travail Redondance de l’architecture Approche d’équilibrage de charge Solution d’équilibrage de charge Azure Exemple de scénario
Élevé Deux régions et zones de disponibilité Actif/actif Azure Front Door (HTTP)

Azure Traffic Manager (non HTTP)
Plateforme d’applications de référence stratégique
Moyenne Deux régions et zones de disponibilité Actif/Passif Azure Front Door (HTTP)

Azure Traffic Manager (non HTTP)
Conseils d’architecture de modèle d’application web fiable
Bas Une seule région et zones de disponibilité Entre plusieurs zones de disponibilité Azure Application Gateway

Ajouter Azure Load Balancer pour les machines virtuelles
Niveau de référence App Service
Base de référence de la machine virtuelle

Votre approche doit implémenter la redondance de l’architecture pour répondre aux exigences de fiabilité de vos charges de travail. Suivez ces étapes :

  1. Estimer la durée de fonctionnement de vos architectures. Pour chaque charge de travail, calculez le contrat SLA composite. Incluez uniquement les services qui pourraient entraîner l’échec de la charge de travail (chemin critique).

    1. Répertoriez chaque service dans le chemin critique de la charge de travail. Collectez les SLA de disponibilité Microsoft de chaque service à partir du document officiel.

    2. Déterminez si la charge de travail inclut des chemins critiques indépendants. Une voie indépendante peut échouer, mais la charge de travail reste disponible.

    3. Si vous avez un chemin critique, utilisez la formule à région unique : N = S1 × S2 × S3 × ... × Sn.

    4. Si vous avez deux chemins critiques ou plus, utilisez la formule de chemin d’accès indépendant : N = S1 x 1 - [(1 - S2) × (1 - S3)].

    5. Les charges de travail complexes combinent souvent les deux types de formule. Exemple : N = S1 × S2 × S3 × (S4 x 1 - [(1 - S5) × (1 - S6)]).

    6. Pour les applications multirégions, utilisez la formule pour la formule multirégion : M = 1 - (1 - N)^R

    7. Comparez votre durée de bon fonctionnement calculée avec votre SLO de durée de bon fonctionnement. Un déficit nécessite des contrats SLA de niveau supérieur ou une redondance supplémentaire. Recalculez après chaque modification. Arrêt après la durée de fonctionnement calculée dépasse le SLO.

    Cas d’utilisation Formule Variables Exemple : Explication
    Région unique N = S1 × S2 × S3 × ... × Sn N = Contrat SLA composite.
    S = CONTRAT SLA du service Azure.
    n = nombre de services sur le chemin critique.
    N = 99,99% (application) × 99,95% (base de données) × 99,9% (cache) Charge de travail simple avec application (99,99%), base de données (99,95%) et cache (99,9%) dans un chemin critique unique.
    Chemins indépendants S1 x 1 - [(1 - S2) × (1 - S3)] S = CONTRAT SLA du service Azure. 99,99 % (app) × (1 - [(1 - 99,95 % base de données) × (1 - 99,9 % cache)]) Dans l’application, la base de données (99.95%) ou le cache (99.9%) peuvent échouer sans provoquer de temps d’arrêt.
    Multirégion M = 1 - (1 - N)^R M = Contrat SLA multirégion.
    N = Contrat SLA pour une seule région.
    R = Nombre de régions.
    Si N = 99,95% et R = 2, M = 1 - (1 - 99,95%)^2 Charge de travail déployée dans deux régions.
  2. Ajustez les niveaux de service. Avant de modifier des architectures, évaluez si différents niveaux de service Azure (SKU) peuvent répondre à vos exigences de fiabilité. Certains niveaux de service Azure peuvent avoir des contrats SLA de durée de bon fonctionnement différents, comme Disques managés Azure.

  3. Ajoutez une redondance d’architecture. Si votre estimation de temps d’activité actuelle est inférieure à votre SLO, augmentez la redondance :

    1. Utilisez plusieurs zones de disponibilité. Configurez vos charges de travail pour utiliser plusieurs zones de disponibilité. La façon dont les zones de disponibilité améliorent votre temps d’activité peut être difficile à estimer. Seuls un certain nombre de services ont des SLAs de disponibilité tenant compte des zones de disponibilité. Où les contrats SLA comptent pour les zones de disponibilité, utilisez-les dans vos estimations de temps d’activité. Pour voir davantage d’exemples, consultez le tableau suivant.

      Type de service Azure Services Azure avec des contrats SLA de zone de disponibilité
      Plateforme de calcul Service d'application
      Azure Kubernetes Service
      Machines virtuelles
      Entrepôt de données Azure Service Bus (Bus de service Azure)
      Comptes de stockage Azure
      Cache Azure pour Redis
      Azure Files, Niveau Premium
      Base de données Base de données Azure Cosmos DB
      Azure SQL Database
      Azure Database pour MySQL
      Base de données Azure pour PostgreSQL
      Azure Managed Instance pour Apache Cassandra
      Équilibreur de charge Application Gateway
      Sécurité Pare-feu Azure
    2. Utilisez plusieurs régions. Plusieurs régions sont souvent nécessaires pour répondre aux SLA de disponibilité. Utilisez des équilibreurs de charge globaux (Azure Front Door ou Traffic Manager) pour la distribution du trafic. Les architectures multirégions nécessitent une gestion minutieuse de la cohérence des données.

  4. Gérer la redondance de l’architecture. Décidez comment utiliser la redondance : vous pouvez utiliser la redondance d’architecture dans le cadre des opérations quotidiennes (actives). Vous pouvez également utiliser la redondance d’architecture dans les scénarios de récupération d’urgence (passif). Pour obtenir des exemples, consultez le tableau 3.

    1. Équilibre de charge entre les zones de disponibilité. Utilisez activement toutes les disponibilités. De nombreux services PaaS Azure gèrent automatiquement l’équilibrage de charge entre les zones de disponibilité. Les charges de travail IaaS doivent utiliser un équilibreur de charge interne pour équilibrer la charge entre les zones de disponibilité.

    2. Équilibrer la charge entre les régions. Selon les besoins de fiabilité, déterminez si les charges de travail multi-régions doivent être exécutées en mode actif-actif ou actif-passif.

  5. Gérer les configurations de service. Appliquez constamment des configurations sur des instances redondantes de ressources Azure, de sorte que les ressources se comportent de la même façon. Utilisez l’infrastructure en tant que code pour maintenir la cohérence. Pour plus d’informations, consultez Configuration des ressources en double.

  6. Concevoir la fiabilité de la charge de travail. Pour la conception de la fiabilité de la charge de travail, consultez l’infrastructure Well-Architected :

    Fiabilité de la charge de travail Instructions
    Pilier de fiabilité Conception multirégion avec une haute disponibilité
    Conception pour la redondance
    Utilisation de zones de disponibilité et de régions
    Guide de service Guides de service Azure (commencez par la section Fiabilité)

Pour plus d’informations, consultez Redondance.

Gérer la continuité des activités

La récupération d’un échec nécessite une stratégie claire pour restaurer rapidement les services et réduire les interruptions pour maintenir la satisfaction des utilisateurs. Suivez ces étapes :

  1. Préparez les échecs. Créez des procédures de récupération distinctes pour les charges de travail en fonction de priorités élevées, moyennes et faibles. La fiabilité des données, le code et la fiabilité du runtime et la fiabilité des ressources cloud constituent la base de la préparation de l’échec. Sélectionnez d’autres outils de récupération pour faciliter la préparation de la continuité d’activité. Par exemple, utilisez Azure Site Recovery pour les charges de travail de serveur locales et de machines virtuelles.

  2. Testez et documentez le plan de récupération. Testez régulièrement vos processus de basculement et de restauration automatique pour vérifier que vos charges de travail répondent aux objectifs de temps de récupération (RTO) et aux objectifs de point de récupération (RPO). Documentez clairement chaque étape du plan de récupération pour faciliter la référence pendant les incidents. Vérifiez que les outils de récupération, tels qu’Azure Site Recovery, répondent constamment à votre RTO spécifié.

  3. Détecter les échecs. Adoptez une approche proactive pour identifier rapidement les pannes, même si cette méthode augmente les faux positifs. Hiérarchiser l’expérience client en réduisant les temps d’arrêt et en conservant la confiance des utilisateurs.

    1. Surveillez les échecs. Surveillez les charges de travail pour détecter les pannes dans un délai d’une minute. Utilisez Azure Service Health et Azure Resources Health et utilisez des alertes Azure Monitor pour notifier les équipes pertinentes. Intégrez ces alertes à des outils Azure DevOps ou de gestion des services informatiques (ITSM).

    2. Collectez des indicateurs de niveau de service (ILS). Suivez les performances en définissant et en collectant des métriques qui servent d'ILS. Assurez-vous que vos équipes utilisent ces métriques pour mesurer les performances de la charge de travail par rapport à vos objectifs de niveau de service (SLA).

  4. Répondez aux défaillances. Aligner votre réponse de récupération sur la priorité de la charge de travail. Implémentez des procédures de basculement pour rediriger immédiatement les demandes vers une infrastructure redondante et des réplicas des données. Une fois les systèmes stabilisés, résolvez la cause racine, synchronisez les données et exécutez des procédures de restauration automatique. Pour plus d’informations, consultez Basculement et restauration automatique.

  5. Analyser les échecs. Identifiez les causes racines des problèmes, puis résolvez le problème. Documentez les leçons et apportez les modifications nécessaires.

  6. Gérer les échecs de charge de travail. Pour la récupération d’urgence de la charge de travail, consultez le guide de récupération d’urgence de Well-Architected Framework et les guides de service Azure (commencez par la section Fiabilité).

Outils de fiabilité Azure

Cas d’utilisation Solution
Réplication des données, sauvegarde et continuité d’activité Guides de service Azure (commencez par la section Fiabilité)

Référence rapide :
Azure Cosmos DB
Base de données SQL Azure
Stockage Blob Azure
Azure Files
Sauvegarde de données Sauvegarde Azure
Continuité des activités (IaaS) Azure Site Recovery
Équilibreur de charge multirégion Azure Front Door (HTTP)
Azure Traffic Manager (non HTTP)
Équilibreur de charge multi-zones de disponibilité Azure Application Gateway (HTTP)
Azure Load Balancer (non-HTTP)

Gérer la sécurité

Utilisez un processus de sécurité itératif pour identifier et atténuer les menaces dans votre environnement cloud. Suivez ces étapes :

Gérer les opérations de sécurité

Gérez vos contrôles de sécurité pour détecter les menaces de votre patrimoine cloud. Suivez ces étapes :

  1. Normaliser les outils de sécurité. Utilisez des outils standardisés pour détecter les menaces, corriger les vulnérabilités, examiner les problèmes, sécuriser les données, renforcer les ressources et appliquer la conformité à grande échelle. Reportez-vous aux outils de sécurité Azure.

  2. Établissez une base de référence pour votre environnement. Documentez l’état normal de votre infrastructure cloud. Surveillez les modèles de trafic réseau et de sécurité et documentez les comportements des utilisateurs. Utilisez le benchmark de sécurité cloud Microsoft v2 et les guides de service Azure pour développer des configurations de base pour les services. Cette base de référence facilite la détection des anomalies et des faiblesses de sécurité potentielles.

  3. Appliquez des contrôles de sécurité. Implémenter des mesures de sécurité, telles que les contrôles d’accès, le chiffrement et l’authentification multifacteur, renforce l’environnement et réduit la probabilité de compromission. Pour plus d’informations, consultez Gérer la sécurité.

  4. Attribuez des responsabilités de sécurité. Désignez la responsabilité de la surveillance de la sécurité dans votre environnement cloud. La surveillance et les comparaisons régulières avec la base de référence permettent d’identifier rapidement les incidents, tels que l’accès non autorisé ou les transferts de données inhabituels. Les mises à jour et les audits réguliers maintiennent votre base de référence de sécurité efficace contre les menaces en constante évolution.

Pour plus d’informations, consultez CAF Secure.

Gérer les incidents de sécurité

Adoptez un processus et des outils pour récupérer des incidents de sécurité, tels que les ransomwares, les dénis de service ou les intrusions d’acteur de menace. Suivez ces étapes :

  1. Préparez les incidents. Développez un plan de réponse aux incidents qui définit clairement les rôles d’investigation, d’atténuation et de communication. Testez régulièrement l’efficacité de votre plan. Évaluez et implémentez des outils de gestion des vulnérabilités, des systèmes de détection des menaces et des solutions de surveillance de l’infrastructure. Réduisez votre surface d’attaque par le biais du renforcement de l’infrastructure et créez des stratégies de récupération spécifiques à la charge de travail. Consultez la vue d’ensemble de la réponse aux incidents et les playbooks de réponse aux incidents.

  2. Détecter les incidents. Utilisez l’outil SIEM (Security Information and Event Management), comme Microsoft Sentinel, pour centraliser vos données de sécurité. Utilisez les fonctionnalités d’orchestration, d’automatisation et de réponse de sécurité de Microsoft Sentinel pour automatiser les tâches de sécurité de routine. Intégrez les flux de renseignements sur les menaces dans votre SIEM pour obtenir des aperçus sur les tactiques des adversaires pertinentes pour votre environnement cloud. Utilisez Microsoft Defender pour cloud pour analyser régulièrement Azure pour détecter les vulnérabilités. Microsoft Defender s’intègre à Microsoft Sentinel pour fournir une vue unifiée des événements de sécurité.

  3. Répondre aux incidents. Activez immédiatement votre plan de réponse aux incidents lors de la détection d’un incident. Démarrez rapidement les procédures d’investigation et d’atténuation. Activez votre plan de récupération d’urgence pour restaurer les systèmes affectés et communiquez clairement les détails des incidents à votre équipe.

  4. Analyser les incidents de sécurité. Après chaque incident, passez en revue le renseignement sur les menaces et mettez à jour votre plan de réponse aux incidents en fonction des leçons apprises et des insights tirés des ressources publiques, telles que la base de connaissances MITRE ATT&CK . Évaluez l’efficacité de vos outils de gestion et de détection des vulnérabilités et affinez les stratégies en fonction de l’analyse post-incident.

Pour plus d’informations, consultez Gérer la réponse aux incidents (CAF Secure).

Outils de sécurité Azure

Fonctionnalité de sécurité Solution de Microsoft
Gestion de l’identité et de l’accès Microsoft Entra ID
Contrôle d’accès basé sur les rôles Contrôle d’accès en fonction du rôle Azure
Détection de menaces Microsoft Defender pour le Cloud
Gestion des informations de sécurité Microsoft Sentinel
Sécurité et gouvernance des données Champ d’action de Microsoft
Sécurité des ressources cloud Benchmark de sécurité cloud Microsoft v2
Gouvernance du cloud Azure Policy
Sécurité des points de terminaison Microsoft Defender pour point de terminaison
Sécurité réseau Azure Network Watcher
Sécurité industrielle Microsoft Defender pour IoT
Sécurité de la sauvegarde des données Sécurité de sauvegarde Azure

Étape suivante