Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Comece por identificar a fase mais longa do trabalho. Desloque-se para a parte inferior da página do trabalho até à lista de etapas e ordene-as por duração:
Detalhes de E/S do estágio
Para ver dados de alto nível sobre o que este estágio estava a fazer, consulte as colunas Input, Output, Shuffle Reade Shuffle Write.
As colunas significam o seguinte:
- Entrada: Quantos dados esta etapa leu do armazenamento. Poderão ser lidos a partir de formatos como Delta, Parquet, CSV, etc.
- Saída: A quantidade de dados que esta etapa escreveu para o armazenamento. Pode incluir escrever para Delta, Parquet, CSV, etc.
- Leitura aleatória: Quantos dados aleatórios esta etapa leu.
- Shuffle Write: Quantos dados aleatórios esta etapa escreveu.
Se você não está familiarizado com o que é shuffle, agora é um bom momento para aprender mais sobre o que isso significa.
Anote esses números, pois provavelmente precisará deles mais tarde.
Número de tarefas
O número de tarefas na etapa longa pode apontar para a origem do seu problema. Determine o número de tarefas consultando aqui:
Se vires uma tarefa, isso pode ser um sinal de um problema. Para obter mais informações, consulte One Spark tarefa.
Ver mais detalhes do palco
Se o estágio tiver mais de uma tarefa, recomendamos que você investigue mais. Clique no link na descrição do estágio para obter mais informações sobre o estágio mais longo:
Agora que você está na página da etapa, veja Inclinação e derramamento.