Udostępnij przez


Diagnozowanie długiego zadania na platformie Spark

Zacznij od zidentyfikowania najdłuższego etapu zadania. Przewiń do dołu strony zadania do listy etapów i ustaw je według czasu trwania:

długi etap

Szczegóły I/O fazy

Aby zobaczyć dane ogólne dotyczące tego, czym zajmuje się ten etap, zapoznaj się z kolumnami Input, Output, Shuffle Readi Shuffle Write:

Długi etap I/O

Kolumny oznaczają następujące elementy:

  • Dane wejściowe: Ilość danych odczytywanych z magazynu na tym etapie. Może to być odczyt z plików Delta, Parquet, CSV itp.
  • Dane wyjściowe: Ilość danych zapisana na tym etapie w pamięci. Może to być zapis do formatu Delta, Parquet, CSV itp.
  • Shuffle Read: Ile danych mieszania jest odczytywanych na tym etapie.
  • Shuffle Write: Ile danych przetasowania zostało napisanych przez ten etap.

Jeśli nie znasz tego, co to jest shuffle, teraz jest dobry czas, aby dowiedzieć się więcej o tym, co to oznacza.

Zanotuj te liczby, ponieważ prawdopodobnie będą one potrzebne później.

Liczba zadań

Liczba zadań na długim etapie może wskazywać na kierunek problemu. Określ liczbę zadań, patrząc tutaj:

Określanie liczby zadań

Jeśli widzisz jedno zadanie, może to być oznaką problemu. Aby uzyskać więcej informacji, zobacz One Spark task.

Wyświetl więcej szczegółów etapu

Jeśli etap ma więcej niż jedno zadanie, zalecamy dalsze badanie. Kliknij link w opisie etapu, aby uzyskać więcej informacji na temat najdłuższego etapu:

Informacje o Otwartym Etapie

Teraz, gdy jesteś na stronie etapu, zapoznaj się z Niesymetrycznością i rozlaniem.