Compartilhar via


Diagnosticando um trabalho longo no Spark

Comece identificando o estágio mais longo do trabalho. Role até a parte inferior da página da vaga para a lista de estágios e organize-os por duração.

Estágio Longo

Detalhes de E/S do estágio

Para ver dados de alto nível sobre o que este estágio estava fazendo, examine as colunas Entrada, Saída, Leitura de Embaralhamento e Gravação de Embaralhamento.

Fase de E/S longa

As colunas significam o seguinte:

  • Entrada: Quantos dados esse estágio lê do armazenamento. Isso pode ser a leitura de dados de Delta, Parquet, CSV, etc.
  • Saída: Quantidade de dados que esta etapa escreveu no armazenamento. Isso pode incluir a escrita para Delta, Parquet, CSV, etc.
  • Leitura de embaralhamento: Quantidade de dados de embaralhamento lidos por este estágio.
  • Dados de Shuffle Gravados: Quantidade de dados de shuffle que este estágio escreveu.

Se você não está familiarizado com o que é shuffle, agora é um bom momento para aprender mais sobre o que isso significa.

Anote esses números, pois você provavelmente precisará deles mais tarde.

Número de tarefas

O número de tarefas no estágio longo pode direcioná-lo para o problema. Determine o número de tarefas examinando aqui:

Determinando o número de tarefas

Se você vir uma tarefa, isso pode indicar um problema. Para obter mais informações, consulte a tarefa One Spark.

Exibir mais detalhes do estágio

Se o estágio tiver mais de uma tarefa, recomendamos que você investigue mais. Clique no link na descrição do estágio para obter mais informações sobre o estágio mais longo:

Abrir informações do palco

Agora que você está na página da etapa, verifique Distorção e Derramamento.