Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
W tym artykule wyjaśniono, jak używać natywnego narzędzia metryk obliczeniowych w interfejsie użytkownika usługi Azure Databricks do zbierania kluczowych metryk sprzętu i platformy Spark. Interfejs użytkownika metryk jest dostępny dla ogólnych oraz zadaniowych środowisk obliczeniowych.
Uwaga
Obliczenia bezserwerowe dla notatników i zadań używają wyników zapytań zamiast UI metryk. Aby uzyskać więcej informacji na temat metryk obliczeniowych bezserwerowych, zobacz Wyświetlanie szczegółowych informacji o zapytaniach.
Metryki są dostępne niemal w czasie rzeczywistym z normalnym opóźnieniem krótszym niż minuta. Metryki są przechowywane w magazynie zarządzanym przez usługę Azure Databricks, a nie w magazynie klienta.
W jaki sposób te nowe metryki różnią się od Ganglia?
Nowy interfejs użytkownika metryk obliczeniowych ma bardziej kompleksowy widok użycia zasobów klastra, w tym użycie platformy Spark i wewnętrzne procesy usługi Databricks. Natomiast interfejs użytkownika Ganglia mierzy tylko zużycie kontenera Spark. Ta różnica może spowodować rozbieżności w wartościach metryk między dwoma interfejsami.
Uzyskiwanie dostępu do interfejsu użytkownika metryk obliczeniowych
Aby wyświetlić interfejs użytkownika do metryk obliczeniowych:
- Kliknij Oblicz na pasku bocznym.
- Kliknij zasób obliczeniowy, dla którego chcesz wyświetlić metryki.
- Kliknij kartę Metryki .
Metryki sprzętu są domyślnie wyświetlane. Aby wyświetlić metryki platformy Spark, kliknij menu rozwijane z etykietą Sprzęt i wybierz pozycję Spark. Możesz również wybrać GPU, jeśli instancja obsługuje GPU.
Filtrowanie metryk według okresu
Metryki historyczne można wyświetlić, wybierając zakres czasu przy użyciu filtru selektora dat. Metryki są zbierane co minutę, dzięki czemu można filtrować według dowolnego zakresu dnia, godziny lub minuty z ostatnich 30 dni. Kliknij ikonę kalendarza, aby wybrać z wstępnie zdefiniowanych zakresów danych, lub kliknij wewnątrz pola tekstowego, aby zdefiniować wartości niestandardowe.
Uwaga
Interwały czasu wyświetlane na wykresach są dostosowywane na podstawie czasu wyświetlania. Większość metryk to średnie na podstawie aktualnie wyświetlanego interwału czasu.
Możesz również pobrać najnowsze metryki, klikając przycisk Odśwież .
Wyświetlanie metryk na poziomie węzła
Metryki dla poszczególnych węzłów można wyświetlić, klikając menu rozwijane Obliczenia i wybierając węzeł, dla którego chcesz wyświetlić metryki. Metryki procesora GPU są dostępne tylko na poziomie poszczególnych węzłów. Metryki platformy Spark nie są dostępne dla poszczególnych węzłów.
Uwaga
Jeśli nie wybierzesz określonego węzła, wynik zostanie uśredniony dla wszystkich węzłów w klastrze (w tym sterownika).
Wykresy metryk sprzętu
Następujące wykresy metryk sprzętu są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:
- Rozkład obciążenia serwera: na tym wykresie przedstawiono wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła.
-
Użycie procesora: procent czasu, przez jaki procesor CPU spędził w każdym trybie, na podstawie łącznego kosztu sekund CPU. Metryka jest uśredniona na podstawie przedziału czasu wyświetlanego na wykresie. Poniżej przedstawiono tryby śledzone:
- gość: jeśli uruchamiasz maszyny wirtualne, to procesor używany przez te maszyny
- iowait: Czas spędzony na oczekiwaniu na we/wy
- bezczynność: czas, w którym procesor nie miał nic do zrobienia
- irq: Czas spędzony na żądaniach przerwania
- nice: Czas wykorzystywany przez procesy, które mają dodatnią wartość przyjazności, co oznacza niższy priorytet niż inne zadania
- softirq: Czas spędzony na żądaniach przerwań oprogramowania
- kradzież: Jeśli jesteś maszyną wirtualną, czas, gdy inne maszyny wirtualne zabierały zasoby obliczeniowe z twojego procesora.
- system: czas spędzony w jądrze
- użytkownik: czas spędzony w userlandzie
-
Wykorzystanie pamięci: łączne użycie pamięci w poszczególnych trybach mierzone w bajtach i uśrednione na podstawie przedziału czasu wyświetlanego na wykresie. Śledzone są następujące typy użycia:
- używane: używana pamięć (w tym pamięć używana przez procesy w tle uruchomione na obliczeniach)
- wolne: nieużywane pamięci
- bufory: pamięć używana przez bufory jądra
- pamięć podręczna: pamięć używana przez pamięć podręczną systemu plików na poziomie systemu operacyjnego
- Wykorzystanie zamiany pamięci: łączne użycie zamiany pamięci w poszczególnych trybach mierzone w bajtach i uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
- Wolne miejsce w systemie plików: łączne użycie systemu plików przez każdy punkt instalacji mierzone w bajtach i uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
- Odebrane za pośrednictwem sieci: liczba bajtów odebranych przez sieć dla każdego urządzenia, uśredniona w zależności od przedziału czasu wyświetlanego na wykresie.
- Przesyłane za pośrednictwem sieci: liczba bajtów przesyłanych przez sieć przez każde urządzenie, uśredniona na podstawie przedziału czasu wyświetlanego na wykresie.
- Liczba aktywnych węzłów: pokazuje liczbę aktywnych węzłów przy każdym znaczniku czasu dla danego obliczenia.
Wykresy metryk platformy Spark
Następujące wykresy metryk platformy Spark są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:
- Rozkład obciążenia serwera: na tym wykresie przedstawiono wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła.
- Aktywne zadania: łączna liczba zadań wykonywanych w danym czasie, uśredniona na podstawie przedziału czasu wyświetlanego na wykresie.
- Łączna liczba zadań zakończonych niepowodzeniem: łączna liczba zadań, które zakończyły się niepowodzeniem w funkcjach wykonawczych, uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
- Łączna liczba wykonanych zadań: całkowita liczba zadań, które zostały ukończone w funkcjach wykonawczych, uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
- Całkowita liczba zadań: całkowita liczba wszystkich zadań (uruchomionych, zakończonych niepowodzeniem i ukończonych) w funkcjach wykonawczych, uśredniona na podstawie przedziału czasu wyświetlanego na wykresie.
-
Łączny odczyt mieszania: całkowity rozmiar danych odczytanych w procesie mieszania, mierzony w bajtach i uśredniony na przedziale czasu wyświetlanym na wykresie.
Shuffle readoznacza sumę zserializowanych danych odczytu na wszystkich wykonawcach na początku fazy. -
Łączny zapis mieszania: łączny rozmiar danych zapisu mieszania mierzony w bajtach i uśredniony na podstawie przedziału czasu wyświetlanego na wykresie.
Shuffle Writejest sumą wszystkich zapisanych serializowanych danych na wszystkich funkcjach wykonawczych przed przesłaniem (zwykle na końcu etapu). - Łączny czas trwania zadania: całkowity czas, jaki JVM spędził na wykonywaniu zadań na wykonawcach, mierzony w sekundach i uśredniony w oparciu o przedział czasowy wyświetlany na wykresie.
Wykresy metryk procesora GPU
Uwaga
Metryki procesora GPU są dostępne tylko w środowisku Databricks Runtime ML 13.3 lub nowszym.
Następujące wykresy metryk procesora GPU są dostępne do wyświetlenia w interfejsie użytkownika metryk obliczeniowych:
- Rozkład obciążenia serwera: na tym wykresie przedstawiono wykorzystanie procesora CPU w ciągu ostatniej minuty dla każdego węzła.
- Wykorzystanie dekodera GPU: procent wykorzystania dekodera GPU, uśredniony w oparciu o przedział czasu wyświetlany na wykresie.
- Wykorzystanie kodera na każdym procesorze GPU: procentowe wykorzystanie kodera przez GPU, uśrednione na podstawie przedziału czasu wyświetlanego na wykresie.
- Użycie pamięci bufora ramki na GPU w bajtach: Zużycie pamięci bufora ramki mierzone w bajtach i uśrednione na podstawie przedziału czasowego wyświetlanego na wykresie.
- Wykorzystanie pamięci na procesor GPU: procent wykorzystania pamięci procesora GPU, uśredniony na podstawie przedziału czasu wyświetlanego na wykresie.
- Wykorzystanie pojedynczego GPU: procentowe wykorzystanie GPU, uśrednione w oparciu o którykolwiek przedział czasu, który jest wyświetlany na wykresie.
Rozwiązywanie problemów
Jeśli w danym okresie zobaczysz niekompletne lub brakujące metryki, może to być jeden z następujących problemów:
- Awaria w usłudze Databricks odpowiedzialna za wykonywanie zapytań i przechowywanie metryk.
- Problemy z siecią po stronie klienta.
- Komputer jest lub był w złej kondycji.