Partilhar via


Diagnosticar um trabalho longo no Spark

Comece por identificar a fase mais longa do trabalho. Desloque-se para a parte inferior da página do trabalho até à lista de etapas e ordene-as por duração:

Estágio Longo

Detalhes de E/S do estágio

Para ver dados de alto nível sobre o que este estágio estava a fazer, consulte as colunas Input, Output, Shuffle Reade Shuffle Write.

E/S de estágio longo

As colunas significam o seguinte:

  • Entrada: Quantos dados esta etapa leu do armazenamento. Poderão ser lidos a partir de formatos como Delta, Parquet, CSV, etc.
  • Saída: A quantidade de dados que esta etapa escreveu para o armazenamento. Pode incluir escrever para Delta, Parquet, CSV, etc.
  • Leitura aleatória: Quantos dados aleatórios esta etapa leu.
  • Shuffle Write: Quantos dados aleatórios esta etapa escreveu.

Se você não está familiarizado com o que é shuffle, agora é um bom momento para aprender mais sobre o que isso significa.

Anote esses números, pois provavelmente precisará deles mais tarde.

Número de tarefas

O número de tarefas na etapa longa pode apontar para a origem do seu problema. Determine o número de tarefas consultando aqui:

Determinar o número de tarefas

Se vires uma tarefa, isso pode ser um sinal de um problema. Para obter mais informações, consulte One Spark tarefa.

Ver mais detalhes do palco

Se o estágio tiver mais de uma tarefa, recomendamos que você investigue mais. Clique no link na descrição do estágio para obter mais informações sobre o estágio mais longo:

Informações do Palco Aberto

Agora que você está na página da etapa, veja Inclinação e derramamento.