Udostępnij przez


Jak tworzyć niestandardowe pule platformy Spark w usłudze Microsoft Fabric

W tym artykule przedstawiono sposób tworzenia niestandardowych pul platformy Apache Spark w usłudze Microsoft Fabric na potrzeby obciążeń analitycznych. Pule platformy Apache Spark umożliwiają tworzenie dostosowanych środowisk obliczeniowych na podstawie wymagań, dzięki czemu uzyskasz optymalną wydajność i wykorzystanie zasobów.

Określ minimalną i maksymalną liczbę węzłów do skalowania automatycznego. System pobiera i wycofuje węzły w miarę zmiany potrzeb obliczeniowych zadania, dzięki czemu skalowanie jest wydajne i poprawia wydajność. Pule Spark automatycznie dostosowują liczbę wykonawców, więc nie musisz ich ustawiać ręcznie. Liczba wykonawców systemu jest dostosowywana w oparciu o ilość danych i potrzeby obliczeniowe zadań, co pozwala skupić się na zadaniach roboczych zamiast na optymalizacji wydajności i zarządzaniu zasobami.

Wskazówka

Podczas konfigurowania pul platformy Spark rozmiar węzła jest określany przez jednostki pojemności (CU), które reprezentują pojemność obliczeniową przypisaną do każdego węzła. Aby uzyskać więcej informacji na temat rozmiarów węzłów i CU, zobacz sekcję Opcje rozmiaru węzła w tym przewodniku.

Wymagania wstępne

Aby utworzyć niestandardową pulę Spark, upewnij się, że masz dostęp administratora do obszaru roboczego. Administrator pojemności włącza opcję Dostosowane pule obszarów roboczych w sekcji Obliczenia Spark w ustawieniach administratora pojemności. Aby uzyskać więcej informacji, zobacz Ustawienia obliczeń platformy Spark dla pojemności sieci szkieletowej.

Utwórz niestandardowe pule Spark

Aby utworzyć lub zarządzać pulą Spark skojarzoną z obszarem roboczym:

  1. Wejdź do swojego obszaru roboczego i wybierz ustawienia obszaru roboczego .

  2. Wybierz opcję Data Engineering/Science, aby rozwinąć menu, a następnie wybierz ustawienia Spark.

    Zrzut ekranu przedstawiający widok szczegółów ustawień platformy Spark.

  3. Wybierz opcję Nowa pula. Na ekranie tworzenia puli , nazwij swoją pulę platformy Spark. Wybierz również rodzinę węzłów oraz wybierz rozmiar węzła z dostępnych rozmiarów (Mały, Średni, Duży, X-Largei XX-Large), na podstawie wymagań obliczeniowych dla obciążeń.

    Zrzut ekranu przedstawiający opcje tworzenia puli niestandardowej.

  4. Minimalną konfigurację węzła dla pul niestandardowych można ustawić na 1. Ponieważ Fabric Spark zapewnia odtwarzalną dostępność dla klastrów z jednym węzłem, nie musisz martwić się o błędy zadań, utratę sesji w razie awarii ani o przepłacanie za zasoby obliczeniowe dla mniejszych zadań Spark.

  5. Możesz włączyć lub wyłączyć skalowanie automatyczne dla niestandardowych pul platformy Spark. Po włączeniu skalowania automatycznego pula będzie dynamicznie uzyskiwać nowe węzły do maksymalnego limitu węzłów określonego przez użytkownika, a następnie wycofać je po wykonaniu zadania. Ta funkcja zapewnia lepszą wydajność dzięki dostosowaniu zasobów na podstawie wymagań dotyczących zadania. Możesz rozmiarować węzły, które mieszczą się w jednostkach pojemności zakupionych w ramach SKU pojemności Fabric.

    Zrzut ekranu przedstawiający opcje tworzenia puli niestandardowej na potrzeby skalowania automatycznego i alokacji dynamicznej.

  6. Liczbę funkcji wykonawczych można dostosować za pomocą suwaka. Każda funkcja wykonawcza to proces platformy Spark, który uruchamia zadania i przechowuje dane w pamięci. Zwiększenie liczby funkcji wykonawczych może poprawić równoległość, ale zwiększa również rozmiar i czas uruchamiania klastra. Możesz również włączyć dynamiczną alokację funkcji wykonawczej dla puli Spark, która automatycznie określa optymalną liczbę funkcji wykonawczych w ramach maksymalnej granicy określonej przez użytkownika. Ta funkcja dostosowuje liczbę funkcji wykonawczych na podstawie woluminu danych, co zwiększa wydajność i wykorzystanie zasobów.

Te niestandardowe pule mają domyślny czas automatycznego wstrzymania wynoszący 2 minuty po zakończeniu okresu bezczynności. Po osiągnięciu czasu trwania automatycznej pauzy sesja wygasa, a klastry zostają zwolnione. Opłaty są naliczane na podstawie liczby węzłów i czasu używania niestandardowych pul Spark.

Notatka

Niestandardowe pule platformy Spark w usłudze Microsoft Fabric obsługują obecnie maksymalny limit węzłów wynoszący 200. Podczas konfigurowania skalowania automatycznego lub ustawiania liczby węzłów ręcznych upewnij się, że minimalne i maksymalne wartości pozostają w tym limicie. Przekroczenie tego limitu spowoduje błędy walidacji podczas tworzenia lub aktualizowania puli.

Opcje rozmiaru węzła

Podczas konfigurowania niestandardowej puli Spark wybierasz spośród następujących rozmiarów węzłów:

Rozmiar węzła vCores Pamięć (GB) Opis
Mały 4 32 Do lekkich prac związanych z tworzeniem i testowaniem.
Średni 8 64 W przypadku ogólnych obciążeń i typowych operacji.
Duży 16 128 W przypadku zadań intensywnie korzystających z pamięci lub dużych zadań przetwarzania danych.
X-Large 32 256 W przypadku najbardziej wymagających obciążeń platformy Spark, które potrzebują znaczących zasobów.
  • Dowiedz się więcej na temat publicznej dokumentacji platformy Apache Spark .
  • Rozpocznij pracę z ustawieniami administrowania obszarem roboczym platformy Spark w usłudze Microsoft Fabric.