Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Aplica-se a esta recomendação da lista de verificação de Eficiência de Desempenho do Power Platform Well-Architected:
| PE:09 | Responder a problemas de performance ao vivo. Planeje como abordar problemas de desempenho incorporando linhas claras de comunicação e responsabilidades. Quando ocorrer uma situação problemática, use o que você aprendeu para identificar medidas preventivas e incorporá-las à sua carga de trabalho. Implemente métodos para retornar às operações normais mais rapidamente quando situações semelhantes ocorrerem. |
|---|
Este guia descreve as melhores práticas para responder a problemas de performance ao vivo. Problemas de desempenho ao vivo referem-se a desafios e gargalos em tempo real que podem dificultar o funcionamento ideal de uma carga de trabalho. Resolver esses problemas prontamente não apenas facilita a detecção e a correção imediata de problemas de desempenho, mas também garante que a carga de trabalho atenda consistentemente seus padrões de desempenho. Não lidar com essas questões pode levar a complicações, incluindo lentidão, travamentos e falta de resposta do sistema, além de prejudicar a experiência do usuário. Eles também podem impedir que os usuários concluam suas tarefas com eficiência e, por sua vez, manchar a reputação da organização.
Definições
| Termo | Definição |
|---|---|
| Correlação de dados | Alinhar logs, métricas e eventos de várias partes da sua carga de trabalho para identificar as causas subjacentes. |
| Análise de causa raiz | Um processo para identificar os fatores subjacentes que são responsáveis por um problema. |
| Autocura | A capacidade de reparar problemas automaticamente sem intervenção humana. |
| Autoprevenção | Implementações dentro de uma carga de trabalho para evitar possíveis problemas e falhas. |
Estratégias-chave de design
Quando você tiver um problema com uma apresentação ao vivo, precisará estar preparado com os dados corretos e um plano para responder ao problema. Este plano deve incluir linhas claras de comunicação e responsabilidades. O objetivo principal é identificar se os problemas de desempenho são temporários ou isolados, identificar a causa raiz do problema de desempenho e implementar soluções que facilitem um rápido retorno às operações normais e forneçam insights sobre o incidente. Integrar medidas preventivas ao seu fluxo de trabalho é uma estratégia fundamental. O objetivo é evitar que o mesmo problema aconteça novamente ou diminuir seus efeitos no desempenho se não for possível evitá-lo.
Prepare-se para problemas
A resposta ideal para problemas de desempenho em sites ao vivo é precisa e rápida. Precisão e rapidez na recuperação do desempenho exigem preparação. Para responder efetivamente a problemas de desempenho ao vivo, é crucial monitorar as principais métricas de desempenho, identificar a causa raiz dos problemas e implementar soluções ou otimizações apropriadas. Para executar essas etapas, talvez seja necessário analisar logs de carga de trabalho, realizar testes de desempenho e otimizar código ou configurações.
Os exemplos a seguir descrevem algumas áreas críticas de preparação:
Tenha diagramas de arquitetura precisos. Seus diagramas de arquitetura devem incluir todos os componentes e mostrar como eles interagem. A representação visual pode ajudar a identificar gargalos e pontos únicos de falha que podem levar à degradação do desempenho ou à indisponibilidade. O ideal é que você identifique e remova esses problemas antes que eles causem problemas, mas ter um diagrama atualizado pode ajudar a identificar problemas em momentos de alto estresse.
Verifique o acesso aos dados. Dados e registros de processos de monitoramento são essenciais para responder a problemas de desempenho em tempo real e conduzir análises de causa raiz. Mas é importante manter a integridade e a confidencialidade dos dados. Responder a problemas de desempenho do site ativo geralmente requer acesso a dados subjacentes que normalmente não seriam acessíveis. Você precisa garantir que o pessoal tenha acesso aos dados necessários quando surgirem problemas. Mas você só deve conceder acesso com restrição de tempo e privilégio mínimo, e deve limitar esse acesso ao pessoal autorizado.
Defina alertas automáticos. Os alertas podem ajudar você a identificar e resolver problemas assim que eles ocorrem. Os alertas devem gerar notificações quando o desempenho da carga de trabalho se desvia das linhas de base de desempenho. Com o tempo, você deve ajustar as configurações de alerta para evitar gerar muitas ou poucas notificações. As soluções de monitoramento que você usa precisam coletar dados suficientes para gerar alertas. Esses alertas devem estar alinhados com metas de desempenho e linhas de base estabelecidas. Você deve evitar gerar alertas sobre problemas que não sejam relevantes para seus objetivos. Exemplos de alertas incluem degradações em tempos de resposta, desempenho de chamadas de API ou plug-ins e carregamentos de páginas. Dataverse
Crie um plano de triagem
A criação de um plano de triagem envolve elaborar uma abordagem estruturada para identificar, escalar, analisar, priorizar e comunicar problemas de desempenho do site ao vivo. Um plano de triagem é uma estratégia para responder a problemas de performance ao vivo. Ela garante que as interrupções de desempenho sejam tratadas de forma rápida e eficaz, com funções e procedimentos claros. A maioria dos problemas de desempenho não justifica protocolos de recuperação de desastres, mas podem afetar a funcionalidade da carga de trabalho o suficiente para exigir planejamento de triagem. Um plano de triagem bem documentado garante que todos os membros da equipe estejam alinhados e possam agir rapidamente, minimizando o impacto sobre os usuários e as cargas de trabalho. Um plano de triagem deve incluir os seguintes componentes:
Identificação e monitoramento: Implementar um sistema para identificar e monitorar problemas de desempenho em tempo real. Você deve ter uma lista de informações de contato de pessoas capazes de tomar decisões ou encaminhar problemas para níveis mais altos. O plano também deve identificar funções e responsabilidades. É preciso documentar quais contas obtêm acesso às informações protegidas e por quanto tempo.
Processo de escalonamento: Defina um processo de escalonamento claro para garantir que os problemas de desempenho sejam encaminhados às equipes ou indivíduos apropriados em tempo hábil. A definição do processo deve incluir informações de contato e diretrizes para encaminhamento de problemas.
Análise de causa raiz: Desenvolva um processo para conduzir uma análise de causa raiz para identificar a causa subjacente de cada problema de desempenho. O processo deve envolver a análise de logs e métricas de desempenho e a realização de testes de diagnóstico para identificar a origem de cada problema.
Priorização: Estabeleça uma estrutura de priorização para determinar a gravidade dos problemas de desempenho e priorizá-los com base em seu efeito na carga de trabalho e nos usuários.
Comunicação: Crie um plano de comunicação para manter as partes interessadas informadas sobre o status dos problemas de desempenho e o progresso de sua resolução. Considere atualizações regulares, relatórios de status e canais de comunicação claros.
Documentação: Documente o plano de triagem, incluindo todas as suas etapas, processos e melhores práticas. Esta documentação deve ser facilmente acessível aos membros da equipe envolvidos na resposta a problemas de desempenho.
Desenvolver métodos para identificar e resolver problemas
Resolver problemas de desempenho ao vivo envolve identificar e abordar quaisquer fatores que possam causar degradação de desempenho ou ineficiências em uma carga de trabalho ao vivo. Os dados coletados durante o monitoramento são inestimáveis para investigar e resolver incidentes relacionados ao desempenho. Esses dados fornecem um registro histórico de métricas de desempenho. Quando você tem dados de monitoramento disponíveis, é possível analisar as causas raiz e identificar os fatores contribuintes. Você deve usar todos os dados de monitoramento relevantes para entender e corrigir cada problema de desempenho. Monitore quantos picos transitórios você está detectando e ajuste os limites adequadamente.
Use a análise da causa raiz
A análise da causa raiz requer testes de hipóteses. Depois de revisar os dados de monitoramento, você deve listar as possíveis causas do problema de desempenho e testá-las.
Para realizar uma análise de causa raiz em um problema de apresentação ao vivo, siga estas etapas:
Reúna informações. Colete o máximo de informações possível sobre o problema de desempenho. Exemplos incluem mensagens de erro, logs, métricas de desempenho e quaisquer outros dados relevantes. Inclua também informações sobre os usuários que relataram o problema, como seu dispositivo, rede e localização.
Defina o problema. Defina claramente o problema identificando os sintomas e o efeito que o problema tem na carga de trabalho ou nos usuários.
Investigue possíveis causas. Restrinja o escopo da análise identificando o componente ou área específica da carga de trabalho onde o problema de desempenho está ocorrendo. Identifique as causas potenciais do problema de desempenho com base nas informações coletadas. Esse processo pode envolver análise de código, configurações de configuração, infraestrutura ou dependências externas.
Correlacionar dados. Analise mais a fundo os dados coletados para identificar padrões, anomalias ou correlações que possam contribuir para o problema de desempenho. A correlação de dados é essencial para identificar problemas de desempenho e suas causas. Pode envolver a revisão de logs, a análise de métricas de desempenho e a realização de testes.
Testar hipóteses. Formule hipóteses com base nas causas potenciais que você identificar. Realize testes para validar ou refutar suas hipóteses. Você deve usar um ambiente de teste para ver se consegue replicar o erro.
Implementar soluções. Depois de identificar a causa raiz, desenvolva e implemente soluções para resolver o problema de desempenho.
Monitore e valide. Depois de implementar as soluções, monitore continuamente a carga de trabalho para garantir que o problema de desempenho seja resolvido. Valide a eficácia das soluções monitorando métricas de desempenho e feedback do usuário.
Compensação: As etapas de uma análise de causa raiz, como identificar possíveis causas, testar hipóteses e documentar a análise, podem consumir muito tempo. Para correlacionar problemas de desempenho, você também precisa coletar e armazenar dados. O tempo e a infraestrutura necessários podem adicionar trabalho significativo às equipes de operações e custos à carga de trabalho.
Risco: Se você realizar uma análise de causa raiz sem as devidas proteções de segurança, há um risco de expor informações confidenciais ao fornecer acesso a logs e dados.
Entre em contato com o suporte da Microsoft
Entre em contato com o Suporte da Microsoft para ajudar a resolver problemas contínuos de desempenho. Os representantes de Suporte da Microsoft não só têm o conhecimento, as ferramentas, os recursos e a experiência para resolver problemas, mas também podem estar cientes de quaisquer problemas atuais de desempenho global ou interrupções que possam afetar sua carga de trabalho. Seu contrato de suporte determina o nível de suporte fornecido.
Geralmente é melhor trabalhar em paralelo com o Suporte da Microsoft. Por exemplo, considere uma estratégia na qual alguns membros da equipe colaboram com o Suporte da Microsoft, enquanto outros continuam a triagem e a corrigir problemas de desempenho.
É importante disponibilizar as informações de contato do suporte para a equipe. Tenha em mente que o Suporte da Microsoft também pode precisar de acesso aos dados para se envolver efetivamente na resolução de problemas.
Para obter mais informações, consulte Obter suporte no Power Platform.
Aprenda com as descobertas
Depois de corrigir um problema de desempenho do site ativo, você precisa revisar o que aconteceu. O objetivo é aprender com os problemas de desempenho, não apenas identificá-los. A melhor maneira de aprender é por meio da documentação. Documente cada problema e explique como corrigi-lo. Se um provedor ajudou, trabalhe com ele para aprimorar sua documentação, treinar sua equipe e modificar sua carga de trabalho adequadamente.
A documentação deve indicar como evitar que cada problema aconteça novamente. Junto com a documentação, você pode criar alertas refinados que ajudam a responder precocemente aos indicadores de problemas de desempenho.
Facilitação do Power Platform
Power Platform e o Azure fornecem diversas ferramentas para ajudar você a responder a problemas de desempenho ao vivo:
O Azure Monitor é uma solução de monitoramento abrangente que fornece insights sobre o desempenho e a integridade de seus aplicativos e infraestrutura. O Azure Monitor oferece recursos como métricas, logs, alertas e painéis para ajudar você a monitorar e diagnosticar problemas de desempenho. Power Platform aplicativos e automação podem ser integrados ao Azure Monitor usando o recurso. Application Insights Telemetria padrão junto com eventos de rastreamento personalizados podem ser registrados e analisados.
Application Insights é um serviço de geranciamento de desempenho de aplicativos (APM) que ajuda desenvolvedores e profissionais de DevOps a monitorar aplicativos ativos. Ele detecta automaticamente anomalias de desempenho, coleta logs e eventos no nível do aplicativo e fornece ferramentas analíticas para diagnosticar problemas. Power Platform integra-se com Application Insights.
O Log Analytics é um serviço que coleta e analisa dados de log de várias fontes, incluindo aplicativos, máquinas virtuais e recursos do Azure. Ao usar o Log Analytics, você pode consultar e analisar dados de log para obter insights sobre o desempenho e o comportamento dos seus aplicativos. Considere usar o Log Analytics se sua carga de trabalho usar recursos do Azure.
O Solution Checker executa análises estáticas avançadas em suas soluções em relação a um conjunto de regras de melhores práticas e identifica padrões problemáticos. Resolva quaisquer problemas relacionados ao desempenho antes de implantar a solução na produção para evitar problemas de desempenho no site ativo.
Lista de verificação Eficiência de Desempenho
Consulte o conjunto completo de recomendações.