Partager via


Recommandations pour résoudre les problèmes de performance en direct

S’applique à cette recommandation de liste de contrôle Efficacité des Performances Power Platform Well-Architected :

PE:09 Répondre aux problèmes liés aux performances en direct. Planifiez la façon de résoudre les problèmes de performance en incorporant des lignes de communication et des responsabilités claires. Lorsqu’une situation problématique survient, utilisez ce que vous avez appris pour identifier des mesures préventives et les intégrer à votre charge de travail. Mettre en œuvre des méthodes pour revenir plus rapidement à la normale lorsque des situations similaires se produisent.

Ce guide décrit les meilleures pratiques pour répondre aux problèmes de performances en temps réel. Les problèmes de performances en temps réel font référence à des défis et à des goulots d’étranglement en temps réel qui peuvent entraver le fonctionnement optimal d’une charge de travail. La résolution rapide de ces problèmes facilite non seulement la détection et la correction immédiates des problèmes de performances, mais garantit également que la charge de travail répond systématiquement à ses critères de performance. Ne pas les résoudre peut entraîner des complications, notamment des ralentissements, des plantages et une absence de réponse du système, et dégrader l’expérience utilisateur. Ils peuvent également empêcher les utilisateurs d’accomplir efficacement leurs tâches et, par conséquent, ternir la réputation de l’organisation.

Définitions

Terme Définition
Correction des données Aligner les journaux, les mesures et les événements de différentes parties de votre charge de travail pour identifier les causes sous-jacentes.
Analyse des causes profondes Processus permettant d’identifier les facteurs sous-jacents responsables d’un problème.
Auto-adaptation La possibilité de réparer automatiquement les problèmes sans intervention humaine.
Auto-prévention Implémentations au sein d’une charge de travail pour éviter les problèmes et les défaillances potentiels.

Stratégies de conception clés

Lorsque vous rencontrez un problème de performance en direct, vous devez être préparé avec les bonnes données et un plan pour y répondre. Ce plan doit comprendre des lignes de communication et des responsabilités claires. L’objectif principal est d’identifier si les problèmes de performance sont temporaires ou isolés, d’identifier la cause première du problème de performance et de mettre en œuvre des solutions qui facilitent un retour rapide aux opérations normales et fournissent des informations sur l’incident. L’intégration de mesures préventives dans votre flux de travail est une stratégie essentielle. L’objectif est soit d’éviter que le même problème ne se reproduise, soit d’atténuer ses effets sur les performances s’il n’est pas évitable.

Préparer les problèmes

La réponse idéale aux problèmes de performance des sites en direct est précise et rapide. La précision et la rapidité de l’assainissement des performances nécessitent une préparation. Pour répondre efficacement aux problèmes de performances en direct, il est essentiel de surveiller les indicateurs de performance clés, d’identifier la cause première des problèmes et de mettre en œuvre des solutions ou des optimisations appropriées. Pour effectuer ces étapes, vous devrez peut-être analyser les journaux de charge de travail, effectuer des tests de performance et optimiser le code ou les configurations.

Les exemples suivants décrivent quelques domaines critiques de préparation :

  • Disposer de diagrammes d’architecture précis. Vos diagrammes d’architecture doivent inclure tous les composants et montrer comment ils interagissent. La représentation visuelle peut aider à identifier les goulots d’étranglement et les points de défaillance uniques susceptibles d’entraîner une dégradation des performances ou une indisponibilité. Idéalement, vous détectez et éliminez ces problèmes avant qu’ils ne causent des problèmes, mais avoir un diagramme à jour peut vous aider à identifier les problèmes dans les moments de stress élevé.

  • Vérifiez l’accès aux données. Les données et les journaux des processus de surveillance sont essentiels pour répondre aux problèmes de performances en temps réel et effectuer des analyses des causes profondes. Mais il est important de maintenir l’intégrité et la confidentialité des données. Répondre aux problèmes de performances du site en direct nécessite souvent l’accès à des données sous-jacentes qui ne sont peut-être pas accessibles normalement. Vous devez vous assurer que le personnel a accès aux données dont il a besoin en cas de problème. Toutefois, vous ne devez accorder qu’un accès limité dans le temps et avec le moindre privilège, et vous devez limiter cet accès au personnel autorisé.

  • Définissez des alertes automatiques. Les alertes peuvent vous aider à identifier et à résoudre les problèmes dès qu’ils surviennent. Les alertes doivent générer des notifications lorsque les performances de la charge de travail s’écartent des valeurs de référence. Au fil du temps, vous devez modifier les configurations d’alerte pour éviter de générer trop ou trop peu de notifications. Les solutions de surveillance que vous utilisez doivent collecter suffisamment de données pour générer des alertes. Ces alertes doivent s’aligner avec les objectifs de rendement et les bases de référence établies. Vous devez éviter de générer des alertes sur des problèmes qui ne sont pas pertinents pour vos objectifs. Des exemples d’alertes incluent les dégradations des temps de réponse, les performances des appels d’API ou des plug-ins, et les chargements de page Dataverse.

Créer un plan de triage

La création d’un plan de triage implique l’élaboration d’une approche structurée pour identifier, transférer, analyser, hiérarchiser et communiquer les problèmes de performance du site en direct. Un plan de triage est une stratégie visant à répondre aux problèmes de performance en direct. Il veille à ce que les perturbations de performance soient traitées rapidement et efficacement, avec des rôles et des procédures clairs. La plupart des problèmes de performances ne justifient pas de protocoles de récupération d’urgence, mais ils peuvent affecter suffisamment la fonctionnalité de la charge de travail pour nécessiter une planification du triage. Un plan de triage bien documenté garantit que tous les membres de l’équipe sont alignés et peuvent agir rapidement, minimisant ainsi l’impact sur les utilisateurs et les charges de travail. Un plan de triage doit comprendre les éléments suivants :

  • Identification et surveillance : Mettez en place un système permettant d’identifier et de surveiller les problèmes de performance en temps réel. Vous devriez avoir une liste des coordonnées des personnes qui sont capables de prendre des décisions ou de faire remonter les problèmes à des niveaux supérieurs. Le plan doit également préciser les rôles et les responsabilités. Il doit documenter quels comptes ont accès à des informations protégées et pendant combien de temps.

  • Processus d’escalade : Définissez un processus d’escalade clair pour vous assurer que les problèmes de performance sont transmis aux équipes ou aux personnes appropriées en temps opportun. La définition du processus doit inclure des coordonnées et des lignes directrices pour l’escalade des problèmes.

  • Analyse des causes profondes : développez un processus d’analyse des causes profondes afin d’identifier la cause sous-jacente de chaque problème de performances. Le processus doit impliquer l’analyse des journaux et des mesures de performance, ainsi que la réalisation de tests de diagnostic pour identifier la source de chaque problème.

  • Hiérarchisation : établissez un cadre de hiérarchisation pour déterminer la gravité des problèmes de performances et hiérarchisez-les en fonction de leur effet sur la charge de travail et les utilisateurs.

  • Communication : Élaborez un plan de communication pour tenir les parties prenantes informées de l’état des problèmes de rendement et de l’état d’avancement de leur résolution. Envisagez des mises à jour régulières, des rapports d’état et des canaux de communication clairs.

  • Documentation : Documentez le plan de triage, y compris toutes les étapes, les processus et les pratiques exemplaires. Cette documentation doit être facilement accessible aux membres de l’équipe qui sont impliqués dans la réponse aux problèmes de performances.

Développer des méthodes pour identifier et résoudre les problèmes

La résolution des problèmes de performances en direct implique d’identifier et de traiter les facteurs qui peuvent entraîner une dégradation des performances ou des inefficacités dans une charge de travail en direct. Les données que vous collectez pendant la surveillance sont inestimables pour l’investigation et la résolution des incidents liés aux performances. Ces données fournissent un historique des mesures de performance. Lorsque vous disposez de données de surveillance, vous pouvez analyser les causes profondes et identifier les facteurs contributifs. Vous devez utiliser toutes les données de surveillance pertinentes pour comprendre et résoudre chaque problème de performances. Surveillez le nombre de pics transitoires que vous détectez et ajustez les seuils en conséquence.

Utiliser l’analyse des causes profondes

L’analyse des causes profondes nécessite des tests d’hypothèses. Après avoir examiné les données de surveillance, vous devez répertorier les causes potentielles du problème de performances et les tester.

Pour effectuer une analyse des causes profondes d’un problème de performances en direct, procédez comme suit :

  • Collectez des informations. Collectez autant d’informations que possible sur le problème de performances. Les exemples incluent les messages d’erreur, les journaux, les mesures de performances et toutes autres données pertinentes. Incluez également des informations sur les utilisateurs qui ont signalé le problème, telles que leur appareil, leur réseau et leur emplacement.

  • Définissez le problème. Définissez clairement le problème en identifiant les symptômes et l’effet que le problème a sur la charge de travail ou les utilisateurs.

  • Enquêtez sur les causes potentielles. Affinez la portée de l’analyse en identifiant le composant ou le domaine spécifique de la charge de travail où le problème de performances se produit. Identifiez les causes potentielles du problème de performances en fonction des informations recueillies. Ce processus peut impliquer l’analyse du code, des paramètres de configuration, de l’infrastructure ou des dépendances externes.

  • Corrélez des données. Analysez plus profondément les données collectées pour identifier les modèles, les anomalies ou les corrélations susceptibles de contribuer au problème de performances. La corrélation des données est essentielle pour identifier les problèmes de performance et leurs causes. Cela peut impliquer l’examen des journaux, l’analyse des mesures de performance et la réalisation de tests.

  • Tester des hypothèses. Formulez des hypothèses en fonction des causes potentielles que vous identifiez. Effectuez des tests pour valider ou réfuter vos hypothèses. Vous devez utiliser un environnement de test pour voir si vous pouvez reproduire l’erreur.

  • Mettez en place des solutions. Une fois que vous avez identifié une cause profonde, développez et mettez en œuvre des solutions pour résoudre le problème de performances.

  • Surveillez et validez. Une fois les solutions mises en œuvre, surveillez en permanence la charge de travail pour vous assurer que le problème de performances est résolu. Validez l’efficacité des solutions en surveillant les indicateurs de performance et les commentaires des utilisateurs.

Compromis : les étapes d’une analyse des causes profondes, telles que l’identification des causes possibles, le test des hypothèses et la documentation de l’analyse, peuvent prendre beaucoup de temps. Pour corréler les problèmes de performances, vous devez également collecter et stocker des données. Le temps et l’infrastructure nécessaires peuvent ajouter une charge de travail importante aux équipes d’exploitation et un coût à la charge de travail.

Risque : si vous effectuez une analyse des causes profondes sans barrières de sécurité appropriées, vous risquez d’exposer des informations sensibles lorsque vous donnez accès aux journaux et aux données.

Accéder au Support Microsoft

Contactez le Support Microsoft pour aider à résoudre les problèmes de performance en cours. Les représentants du support technique de Microsoft disposent non seulement du savoir-faire, des outils, des ressources et de l’expérience nécessaires pour résoudre les problèmes, mais ils peuvent également être au courant des problèmes de performance globale actuels ou des pannes qui pourraient affecter votre charge de travail. Votre contrat de support détermine le niveau de support fourni.

Il est souvent préférable de travailler en parallèle avec le support Microsoft. Par exemple, envisagez une stratégie dans laquelle certains membres de l’équipe collaborent avec le support Microsoft, tandis que d’autres continuent à trier et à résoudre les problèmes de performances.

Il est important de mettre les coordonnées du support à la disposition de l’équipe. Gardez à l’esprit que le support Microsoft peut également avoir besoin d’accéder aux données pour s’engager efficacement dans la résolution de problèmes.

Pour en savoir plus, consultez Obtenir la prise en charge dans Power Platform.

Tirer les leçons des résultats

Après avoir résolu un problème de performances du site en direct, vous devez examiner ce qui s’est passé. L’objectif est d’apprendre des problèmes de performance, pas seulement d’identifier les problèmes. La meilleure façon d’apprendre est d’utiliser la documentation. Documentez chaque problème et expliquez comment le résoudre. Si un fournisseur vous a aidé, travaillez avec lui pour améliorer votre documentation, former votre équipe et modifier votre charge de travail en conséquence.

La documentation doit indiquer comment éviter que chaque problème ne se reproduise. En plus de la documentation, vous pouvez créer des alertes affinées qui vous aident à réagir rapidement aux indicateurs de problèmes de performances.

Facilitation de Power Platform

Power Platform et Azure fournissent plusieurs outils pour vous aider à répondre aux problèmes de performances en direct :

  • Azure Monitor est une solution de surveillance complète qui fournit des informations sur les performances et l’intégrité de vos applications et de votre infrastructure. Azure Monitor offre des fonctionnalités telles que des mesures, des journaux, des alertes et des tableaux de bord pour vous aider à surveiller et à diagnostiquer les problèmes de performances. Les applications Power Platform et l’automatisation peuvent s’intégrer à Azure Monitor à l’aide de cette fonctionnalité Application Insights. La télémétrie standard ainsi que les événements de trace personnalisés peuvent être consignés et analysés.

  • Application Insights est un service de Gestion des performances des applications (APM) extensible pour les développeurs et les professionnels DevOps dans le cadre de la surveillance des applications en direct. Il détecte automatiquement les anomalies de performances, collecte les journaux et les événements au niveau de l’application et fournit des outils d’analyse pour diagnostiquer les problèmes. Power Platform s’intègre avec Application Insights.

  • Log Analytics est un service qui collecte et analyse les données de journal provenant de diverses sources, notamment des applications, des machines virtuelles et des ressources Azure. Lorsque vous utilisez Log Analytics, vous pouvez interroger et analyser les données de journal pour obtenir des informations sur les performances et le comportement de vos applications. Envisagez d’utiliser Log Analytics si votre charge de travail utilise des ressources Azure.

  • Le vérificateur de solution exécute une vérification d’analyse statique enrichie de vos solutions par rapport à un ensemble de règles de meilleures pratiques pour identifier rapidement ces schémas problématiques. Résolvez tous les problèmes liés aux performances avant de déployer la solution en production afin d’éviter les problèmes de performances du site en direct.

Liste de contrôle Efficacité des performances

Référez-vous à l’ensemble complet des recommandations.