Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Este artigo explica como usar a ferramenta de métricas de computação nativa na interface do usuário do Azure Databricks para coletar hardware chave e métricas do Spark. A interface de utilizador das métricas está disponível para cálculos gerais e tarefas.
As métricas estão disponíveis quase em tempo real com um atraso normal de menos de um minuto. As métricas são armazenadas no armazenamento gerenciado pelo Azure Databricks, não no armazenamento do cliente.
A computação sem servidor para blocos de anotações e trabalhos usa insights de consulta em vez da interface do usuário de métricas. Para mais informações sobre métricas de computação sem servidor, veja Ver insights da consulta.
Aceder à interface de utilizador de métricas de computação
Para exibir a interface de métricas de cálculo:
- Clique em Calcular na barra lateral.
- Clique no recurso de computação para o qual deseja visualizar as métricas.
- Clique na guia Métricas .
As métricas de hardware para todos os nós são mostradas por padrão. Para visualizar as métricas do Spark, clique no menu suspenso Hardware e selecione Spark. Você também pode selecionar GPU se a instância estiver habilitada para GPU.
Filtrar métricas por período de tempo
Você pode visualizar métricas históricas selecionando um intervalo de tempo usando o filtro do seletor de datas. As métricas são coletadas a cada minuto, para que você possa filtrar por qualquer intervalo de dia, hora ou minuto dos últimos 30 dias. Clique no ícone de calendário para selecionar entre intervalos de dados predefinidos ou clique dentro da caixa de texto para definir valores personalizados.
Nota
Os intervalos de tempo exibidos nos gráficos são ajustados com base no período de tempo que você está visualizando. A maioria das métricas são médias baseadas no intervalo de tempo que você está visualizando no momento.
Você também pode obter as métricas mais recentes clicando no botão Atualizar .
Visualizar métricas ao nível do nó
Por defeito, a página de métricas mostra-lhe as métricas de todos os nós dentro de um cluster (incluindo o driver) com a média ao longo do período de tempo.
Pode visualizar métricas para nós individuais ao clicar no menu suspenso Todos os nós e selecionar o nó para o qual deseja visualizar as métricas. As métricas da GPU só estão disponíveis no nível do nó individual. As métricas do Spark não estão disponíveis para nódulos individuais.
Para ajudar a identificar quaisquer nós atípicos dentro do cluster, pode também visualizar métricas de todos os nós individuais numa única página. Para aceder a esta vista, clique no menu suspenso Todos os nós e selecione Por nó, depois, selecione a subcategoria de métricas que pretende visualizar.
Gráficos métricos de hardware
Os seguintes gráficos de métricas de hardware estão disponíveis para exibição na interface do usuário de métricas de computação:
-
Utilização da CPU e nós ativos: O gráfico de linhas mostra o número de nós ativos em cada instante de tempo para o processamento dado. O gráfico de barras mostra a percentagem de tempo que a CPU passou em cada modo, com base no custo total de segundos da CPU. A métrica de utilização é a média do intervalo de tempo apresentado no gráfico. A seguir estão os modos rastreados:
- guest: Se estiver a executar VMs, o CPU que essas VMs utilizam
- iowait: Tempo gasto à espera de E/S
- ocioso: Tempo que a CPU não tinha nada para fazer
- irq: Tempo gasto em pedidos de interrupção
- nice: Tempo utilizado por processos que têm um "nice" positivo, ou seja, uma prioridade menor do que outras tarefas
- softirq: Tempo gasto em solicitações de interrupção de software
- roubar: se você for uma VM, o tempo que outras VMs "roubaram" de suas CPUs
- system: O tempo gasto no kernel
- user: O tempo gasto no espaço do utilizador
-
Utilização e troca de memória: O gráfico de linhas mostra o uso total de troca de memória por modo, medido em bytes e promediado ao longo do intervalo de tempo apresentado. O gráfico de barras mostra o uso total de memória por modo, também medido em bytes e mediado ao longo do intervalo de tempo apresentado. Os seguintes tipos de uso são rastreados:
- utilizada: Memória total ao nível do sistema operativo em uso, incluindo memória usada por processos em segundo plano a correr num cálculo. Como o driver e os processos em segundo plano utilizam memória, a utilização pode aparecer mesmo quando não há trabalhos Spark a correr.
- livre: memória não utilizada
- buffer: Memória usada pelos buffers do kernel
- em cache: Memória usada pelo cache de sistema de ficheiros ao nível do sistema operativo
- Rede recebida e transmitida: O número de bytes recebidos e transmitidos através da rede por cada dispositivo, com base no intervalo de tempo apresentado no gráfico.
- Espaço livre do sistema de ficheiros: A utilização total do sistema de ficheiros por cada ponto de montagem, medida em bytes e média com base no intervalo de tempo apresentado no gráfico.
Gráficos de métricas do Spark
Os seguintes gráficos de métricas do Spark estão disponíveis para exibição na interface do usuário de métricas de computação:
- Distribuição de carga do servidor: Estes tiles mostram a utilização da CPU ao longo do último minuto para cada nó no recurso de computação. Cada mosaico é um link clicável para a página de métricas do nó individual.
- Tarefas ativas: O número total de tarefas em execução em qualquer momento, com base no intervalo de tempo apresentado no gráfico.
- Total de tarefas falhadas: O número total de tarefas falhadas nos executores, com base no intervalo de tempo apresentado no gráfico.
- Total de tarefas concluídas: O número total de tarefas concluídas nos executores, com base no intervalo de tempo apresentado no gráfico.
- Número total de tarefas: O número total de todas as tarefas (em execução, falhadas e concluídas) nos executores, com base no intervalo de tempo apresentado no gráfico.
-
Leitura total de dados embaralhados: O tamanho total dos dados de leitura de dados embaralhados, medido em bytes e calculado em média com base no intervalo de tempo apresentado no gráfico.
Shuffle readsignifica o total dos dados de leitura serializados em todos os executores no início de uma fase. -
Escrita total de embaralhamento: O tamanho total dos dados de escrita de embaralhamento, medido em bytes e calculado com base no intervalo de tempo apresentado no gráfico.
Shuffle Writeé a soma de todos os dados serializados escritos em todos os executores antes da transmissão (normalmente no final de um estágio). - Duração total da tarefa: O tempo total decorrido que a JVM passou a executar tarefas nos executores, medido em segundos e com base no intervalo de tempo apresentado no gráfico.
Gráficos métricos da GPU
Nota
As métricas da GPU só estão disponíveis no Databricks Runtime ML 13.3 e superior.
Os seguintes gráficos de métricas da GPU estão disponíveis para exibição na interface do usuário de métricas de computação:
- Distribuição de carga do servidor: este gráfico mostra a utilização da CPU no último minuto para cada nó.
- Utilização do descodificador por GPU: A percentagem média de utilização do descodificador da GPU, baseada no intervalo de tempo apresentado no gráfico.
- Utilização do codificador por GPU: A percentagem de utilização do codificador da GPU, calculada em média com base no intervalo de tempo mostrado no gráfico.
- Utilização de memória por GPU em bytes do frame buffer: A utilização da memória do frame buffer, medida em bytes e em média baseada no intervalo de tempo apresentado no gráfico.
- Utilização de memória por GPU: A porcentagem de utilização de memória da GPU, calculada em média com base no intervalo de tempo apresentado no gráfico.
- Utilização por GPU: A percentagem de utilização da GPU, calculada como média com base no intervalo de tempo apresentado no gráfico.
Resolução de Problemas
Se você vir métricas incompletas ou ausentes por um período, pode ser um dos seguintes problemas:
- Uma interrupção no serviço Databricks responsável por consultar e armazenar métricas.
- Problemas de rede do lado do cliente.
- A computação está ou estava num estado de falha.