Delen via


Architectuurstrategieën voor het reageren op live prestatieproblemen

Is van toepassing op deze aanbeveling voor de controlelijst prestatie-efficiëntie van Azure Well-Architected Framework:

PE:11 Reageer op problemen met liveprestaties. Plan hoe u prestatieproblemen kunt oplossen door duidelijke communicatielijnen en verantwoordelijkheden op te nemen. Wanneer zich een problematische situatie voordoet, gebruikt u wat u leert om preventieve maatregelen te identificeren en op te nemen in uw workload. Implementeer methoden om sneller terug te keren naar normale bewerkingen wanneer vergelijkbare situaties optreden.

In deze handleiding worden de aanbevolen procedures beschreven voor het reageren op live prestatieproblemen. Live prestatieproblemen verwijzen naar realtime uitdagingen en knelpunten die de optimale werking van een workload kunnen belemmeren. Het oplossen van deze problemen vergemakkelijkt niet alleen de onmiddellijke detectie en correctie van prestatieproblemen, maar zorgt er ook voor dat de workload consistent voldoet aan de prestatiebenchmarks. Als u ze niet kunt oplossen, kan dit leiden tot complicaties, waaronder vertragingen, crashes en systeemontantwoording en verminderde gebruikerservaring. Ze kunnen ook voorkomen dat gebruikers hun taken efficiënt uitvoeren en op hun beurt de reputatie van de organisatie schaden.

Definities

Termijn Definition
Gegevenscorrelatie Logboeken, metrische gegevens en gebeurtenissen uit verschillende onderdelen van uw workload uitlijnen om onderliggende oorzaken vast te stellen.
Hoofdoorzaakanalyse Een proces voor het identificeren van de onderliggende factoren die verantwoordelijk zijn voor een probleem.
Zelfherstel De mogelijkheid om problemen automatisch te herstellen zonder menselijke tussenkomst.
Zelfpreventie Implementaties binnen een workload om potentiële problemen en fouten te voorkomen.

Wanneer u een live prestatieprobleem ondervindt, moet u worden voorbereid met de juiste gegevens en een plan om op het probleem te reageren. Dit plan moet duidelijke communicatielijnen en verantwoordelijkheden omvatten. Het primaire doel is het implementeren van oplossingen die een snelle terugkeer naar reguliere bewerkingen mogelijk maken en inzichten uit het incident bieden. Het integreren van preventieve maatregelen in uw werkstroom is een centrale strategie. Het doel is om te voorkomen dat hetzelfde probleem zich opnieuw voordoet of de gevolgen van de prestaties te verminderen als dit niet kan worden voorkomen.

Voorbereiden op problemen

De ideale reactie op problemen met live-siteprestaties is nauwkeurig en snel. Precisie en snelheid in prestatieherstel vereisen voorbereiding. Om effectief te reageren op live prestatieproblemen, is het van cruciaal belang om belangrijke prestatiegegevens te bewaken, de hoofdoorzaak van de problemen te identificeren en geschikte oplossingen of optimalisaties te implementeren. Als u deze stappen wilt uitvoeren, moet u mogelijk workloadlogboeken analyseren, prestatietests uitvoeren, code of configuraties optimaliseren en resources schalen. In de volgende voorbeelden worden enkele kritieke gebieden van voorbereiding beschreven:

  • Nauwkeurige architectuurdiagrammen hebben. Uw architectuurdiagrammen moeten alle onderdelen bevatten en laten zien hoe ze communiceren. Visuele weergave kan helpen bij het identificeren van knelpunten en single points of failure die kunnen leiden tot prestatievermindering of onbeschikbaarheid. In het ideale voorbeeld kunt u deze problemen onderscheppen en verwijderen voordat ze problemen veroorzaken, maar als u een up-to-datumdiagram hebt, kunt u problemen in hoge stressmomenten opsporen.

  • Controleer de toegang tot gegevens. Gegevens en logboeken van bewakingsprocessen zijn essentieel voor het in realtime reageren op prestatieproblemen en het uitvoeren van hoofdoorzaakanalyses. Maar het is belangrijk om de integriteit en vertrouwelijkheid van de gegevens te behouden. Als u reageert op problemen met live-siteprestaties, hebt u vaak toegang nodig tot onderliggende gegevens die mogelijk niet normaal toegankelijk zijn. U moet ervoor zorgen dat medewerkers toegang hebben tot de gegevens die ze nodig hebben wanneer zich problemen voordoen. U moet echter alleen toegang verlenen tot beperkte tijd, minimale bevoegdheden en u moet die toegang beperken tot geautoriseerd personeel.

  • Automatische waarschuwingen instellen. Met waarschuwingen kunt u problemen identificeren en oplossen zodra deze zich voordoen. Waarschuwingen moeten meldingen genereren wanneer de workloadprestaties afwijken van prestatiebasislijnen. Na verloop van tijd moet u waarschuwingsconfiguraties aanpassen om te voorkomen dat er te veel of te weinig meldingen worden gegenereerd. De bewakingsoplossingen die u gebruikt, moeten voldoende gegevens verzamelen om waarschuwingen te genereren. Deze waarschuwingen moeten overeenkomen met prestatiedoelen en vastgestelde basislijnen. Vermijd het genereren van waarschuwingen over problemen die relevant zijn voor uw doelen. Voorbeelden van waarschuwingen zijn degradaties in CPU-gebruik, geheugen, reactietijden en databaseprestaties.

Een sorteerplan maken

Het maken van een triageplan omvat het ontwerpen van een gestructureerde benadering voor het identificeren, escaleren, analyseren, prioriteren en communiceren van live-site prestatieproblemen. Een triageplan is een strategie voor het reageren op live prestatieproblemen. Het zorgt ervoor dat prestatieonderbrekingen onmiddellijk en effectief worden aangepakt, met duidelijke rollen en procedures. De meeste prestatieproblemen verdienen geen protocollen voor herstel na noodgevallen, maar ze kunnen wel van invloed zijn op de functionaliteit van de werkbelasting om triageplanning te vereisen. Een goed gedocumenteerd triageplan zorgt ervoor dat alle teamleden zijn afgestemd en snel kunnen handelen, waardoor de impact op gebruikers en workloads wordt geminimaliseerd. Een sorteerplan moet de volgende onderdelen bevatten:

  • Identificatie en bewaking: Implementeer een systeem om prestatieproblemen in realtime te identificeren en te bewaken. U moet een lijst hebben met de contactgegevens van personen die in staat zijn beslissingen te nemen of problemen te escaleren naar hogere niveaus. Het plan moet ook rollen en verantwoordelijkheden identificeren. Het moet documenteren welke accounts toegang krijgen tot beveiligde informatie en hoe lang.

  • Escalatieproces: Definieer een duidelijk escalatieproces om ervoor te zorgen dat prestatieproblemen tijdig worden geëscaleerd naar de juiste teams of personen. De procesdefinitie moet contactgegevens en richtlijnen bevatten voor het escaleren van problemen.

  • Hoofdoorzaakanalyse: ontwikkel een proces voor het uitvoeren van een hoofdoorzaakanalyse om de onderliggende oorzaak van elk prestatieprobleem te identificeren. Het proces moet betrekking hebben op het analyseren van logboeken en metrische prestatiegegevens en het uitvoeren van diagnostische tests om de bron van elk probleem vast te stellen.

  • Prioriteitsaanduiding: stel een prioriteringsframework in om de ernst van prestatieproblemen te bepalen en prioriteit te geven op basis van hun effect op de workload en gebruikers.

  • Communicatie: Maak een communicatieplan om belanghebbenden op de hoogte te houden van de status van prestatieproblemen en de voortgang van hun oplossing. Overweeg regelmatig updates, statusrapporten en duidelijke communicatiekanalen.

  • Documentatie: Documenteer het triageplan, inclusief alle bijbehorende stappen, processen en best practices. Deze documentatie moet eenvoudig toegankelijk zijn voor de teamleden die betrokken zijn bij het reageren op prestatieproblemen.

Methoden ontwikkelen om problemen te identificeren en op te lossen

Het oplossen van problemen met liveprestaties omvat het identificeren en aanpakken van alle factoren die prestatievermindering of inefficiëntie in een live workload kunnen veroorzaken. Gegevens die u tijdens de bewaking verzamelt, zijn waardevol wanneer u prestatiegerelateerde incidenten onderzoekt en oplost. Deze gegevens bieden een historisch overzicht van metrische prestatiegegevens. Wanneer er bewakingsgegevens beschikbaar zijn, kunt u de hoofdoorzaken analyseren en factoren identificeren die bijdragen. U moet alle relevante bewakingsgegevens gebruiken om elk prestatieprobleem te begrijpen en op te lossen.

Hoofdoorzaakanalyse gebruiken

Analyse van hoofdoorzaak vereist hypothesetests. Nadat u de bewakingsgegevens hebt bekeken, moet u mogelijke oorzaken van het prestatieprobleem vermelden en deze testen. Als u een hoofdoorzaakanalyse wilt uitvoeren op een probleem met liveprestaties, kunt u deze stappen uitvoeren:

  1. Informatie verzamelen. Verzamel zoveel mogelijk informatie over het prestatieprobleem. Voorbeelden hiervan zijn foutberichten, logboeken, metrische prestatiegegevens en andere relevante gegevens.

  2. Definieer het probleem. Definieer het probleem duidelijk door de symptomen te identificeren en het effect dat het probleem heeft op de workload of gebruikers.

  3. Mogelijke oorzaken onderzoeken. Beperk het bereik van de analyse door het specifieke onderdeel of gebied van de workload te identificeren waar het prestatieprobleem zich voordoet. Identificeer mogelijke oorzaken van het prestatieprobleem op basis van de verzamelde informatie. Dit proces kan betrekking hebben op het analyseren van code, configuratie-instellingen, infrastructuur of externe afhankelijkheden.

  4. Gegevens correleren. Dieper ingaan op de verzamelde gegevens om patronen, afwijkingen of correlaties te identificeren die kunnen bijdragen aan het prestatieprobleem. Gegevenscorrelatie is essentieel voor het identificeren van prestatieproblemen en oorzaken. Het kan betrekking hebben op het controleren van logboeken, het analyseren van metrische prestatiegegevens en het uitvoeren van tests.

  5. Testhypotheses. Formuleer hypothesen op basis van de mogelijke oorzaken die u identificeert. Voer tests uit om uw hypothesen te valideren of te weerleggen. U moet een testomgeving gebruiken om te zien of u de fout kunt repliceren.

  6. Oplossingen implementeren. Zodra u een hoofdoorzaak hebt geïdentificeerd, kunt u oplossingen ontwikkelen en implementeren om het prestatieprobleem op te lossen.

  7. Controleren en valideren. Nadat u de oplossingen hebt geïmplementeerd, controleert u continu de workload om ervoor te zorgen dat het prestatieprobleem wordt opgelost. Valideer de effectiviteit van de oplossingen door metrische prestatiegegevens en feedback van gebruikers te bewaken.

Compromis: De stappen van een hoofdoorzaakanalyse, zoals het identificeren van mogelijke oorzaken, het testen van hypothesen en het documenteren van de analyse, kunnen tijdrovend zijn. Als u prestatieproblemen wilt correleren, moet u ook gegevens verzamelen en opslaan. De vereiste tijd en infrastructuur kunnen aanzienlijke werkzaamheden toevoegen aan de operationele teams en de kosten voor de workload.

Risico: Als u een hoofdoorzaakanalyse uitvoert zonder de juiste beveiligingsbescherming, is er een risico dat u gevoelige informatie beschikbaar maakt wanneer u toegang geeft tot logboeken en gegevens.

Ondersteuning voor leveranciers inschakelen

Ondersteuning van leveranciers kan een essentiële stap zijn wanneer u lopende prestatieproblemen afhandelen. Leveranciers hebben de expertise, hulpprogramma's, resources en ervaring om problemen met hun producten op te lossen. Uw ondersteuningsovereenkomst met uw leverancier bepaalt het niveau van ondersteuning dat een leverancier biedt.

Het is vaak het beste om parallel met leveranciers te werken. U moet een plan maken om sommige teamleden samen te laten werken met de ondersteuning van leveranciers, terwijl anderen prestatieproblemen blijven classificeren en oplossen. Ondersteuningsteams van leveranciers kunnen ook suggesties doen voor het voorkomen en automatiseren van reacties op vergelijkbare gebeurtenissen.

U moet contactgegevens beschikbaar hebben voor uw personeel. Leveranciers hebben mogelijk ook toegang tot gegevens nodig om effectief te kunnen werken aan probleemoplossing. U moet een plan hebben voor het verifiëren en autoriseren van externe accounts of gastaccounts voor toegang tot bewakingsgegevens.

Leren van bevindingen

Nadat u een probleem met live-siteprestaties hebt opgelost, moet u controleren wat er is gebeurd. Het doel is om te leren van prestatieproblemen, niet alleen om problemen te identificeren. De beste manier om te leren is via documentatie. Documenteer elk probleem en leg uit hoe u dit kunt oplossen. Als een leverancier heeft geholpen, kunt u samenwerken met de leverancier om uw documentatie te verbeteren, uw team te trainen en uw workload dienovereenkomstig te wijzigen.

In de documentatie moet worden aangegeven hoe u kunt voorkomen dat elk probleem zich opnieuw voordoet. Een manier om terugkerende problemen te voorkomen, is door automatisering te introduceren om te reageren op veelvoorkomende problemen. Automatisering moet zelfherstel- en zelfpreventiekwaliteiten toevoegen aan een workload. Naast de automatisering kunt u verfijnde waarschuwingen maken waarmee u vroeg op indicatoren voor prestatieproblemen kunt reageren.

Azure-facilitering

Methoden ontwikkelen om problemen te identificeren en op te lossen: Azure biedt verschillende hulpprogramma's waarmee u kunt reageren op live prestatieproblemen:

  • Azure Monitor is een uitgebreide bewakingsoplossing die inzicht biedt in de prestaties en status van uw toepassingen en infrastructuur. Monitor biedt functies zoals metrische gegevens, logboeken, waarschuwingen en dashboards waarmee u prestatieproblemen kunt bewaken en diagnosticeren.

  • Application Insights is een APM-service (Application Performance Management) waarmee ontwikkelaars en DevOps-professionals livetoepassingen kunnen bewaken. Het detecteert automatisch prestatieafwijkingen, verzamelt logboeken en gebeurtenissen op toepassingsniveau en biedt analysehulpprogramma's voor het diagnosticeren van problemen.

  • Log Analytics is een service waarmee logboekgegevens uit verschillende bronnen worden verzameld en geanalyseerd, waaronder toepassingen, virtuele machines en Azure-resources. Wanneer u Log Analytics gebruikt, kunt u logboekgegevens opvragen en analyseren om inzicht te krijgen in de prestaties en het gedrag van uw toepassingen.

Controlelijst voor prestatie-efficiëntie

Raadpleeg de volledige set aanbevelingen.