Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Zacznij od zidentyfikowania najdłuższego etapu zadania. Przewiń do dołu strony zadania do listy etapów i ustaw je według czasu trwania:
Szczegóły I/O fazy
Aby zobaczyć dane ogólne dotyczące tego, czym zajmuje się ten etap, zapoznaj się z kolumnami Input, Output, Shuffle Readi Shuffle Write:
Kolumny oznaczają następujące elementy:
- Dane wejściowe: Ilość danych odczytywanych z magazynu na tym etapie. Może to być odczyt z plików Delta, Parquet, CSV itp.
- Dane wyjściowe: Ilość danych zapisana na tym etapie w pamięci. Może to być zapis do formatu Delta, Parquet, CSV itp.
- Shuffle Read: Ile danych mieszania jest odczytywanych na tym etapie.
- Shuffle Write: Ile danych przetasowania zostało napisanych przez ten etap.
Jeśli nie znasz tego, co to jest shuffle, teraz jest dobry czas, aby dowiedzieć się więcej o tym, co to oznacza.
Zanotuj te liczby, ponieważ prawdopodobnie będą one potrzebne później.
Liczba zadań
Liczba zadań na długim etapie może wskazywać na kierunek problemu. Określ liczbę zadań, patrząc tutaj:
Jeśli widzisz jedno zadanie, może to być oznaką problemu. Aby uzyskać więcej informacji, zobacz One Spark task.
Wyświetl więcej szczegółów etapu
Jeśli etap ma więcej niż jedno zadanie, zalecamy dalsze badanie. Kliknij link w opisie etapu, aby uzyskać więcej informacji na temat najdłuższego etapu:
Teraz, gdy jesteś na stronie etapu, zapoznaj się z Niesymetrycznością i rozlaniem.