Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Comece identificando o estágio mais longo do trabalho. Role até a parte inferior da página da vaga para a lista de estágios e organize-os por duração.
Detalhes de E/S do estágio
Para ver dados de alto nível sobre o que este estágio estava fazendo, examine as colunas Entrada, Saída, Leitura de Embaralhamento e Gravação de Embaralhamento.
As colunas significam o seguinte:
- Entrada: Quantos dados esse estágio lê do armazenamento. Isso pode ser a leitura de dados de Delta, Parquet, CSV, etc.
- Saída: Quantidade de dados que esta etapa escreveu no armazenamento. Isso pode incluir a escrita para Delta, Parquet, CSV, etc.
- Leitura de embaralhamento: Quantidade de dados de embaralhamento lidos por este estágio.
- Dados de Shuffle Gravados: Quantidade de dados de shuffle que este estágio escreveu.
Se você não está familiarizado com o que é shuffle, agora é um bom momento para aprender mais sobre o que isso significa.
Anote esses números, pois você provavelmente precisará deles mais tarde.
Número de tarefas
O número de tarefas no estágio longo pode direcioná-lo para o problema. Determine o número de tarefas examinando aqui:
Se você vir uma tarefa, isso pode indicar um problema. Para obter mais informações, consulte a tarefa One Spark.
Exibir mais detalhes do estágio
Se o estágio tiver mais de uma tarefa, recomendamos que você investigue mais. Clique no link na descrição do estágio para obter mais informações sobre o estágio mais longo:
Agora que você está na página da etapa, verifique Distorção e Derramamento.