Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Z tego samouczka dowiesz się, jak utworzyć definicję zadania platformy Spark w usłudze Microsoft Fabric.
Proces tworzenia definicji zadań platformy Spark jest szybki i prosty; Istnieje kilka sposobów rozpoczęcia pracy.
Definicję zadania platformy Spark można utworzyć z poziomu portalu sieci szkieletowej lub przy użyciu interfejsu API REST usługi Microsoft Fabric. Ten artykuł koncentruje się na tworzeniu definicji zadania Spark z poziomu portalu Fabric. Aby uzyskać informacje na temat tworzenia definicji zadania platformy Spark przy użyciu interfejsu API REST, zobacz Interfejs API definicji zadań platformy Apache Spark w wersji 1 i interfejs API definicji zadań platformy Apache Spark w wersji 2.
Wymagania wstępne
Przed rozpoczęciem potrzebne są następujące elementy:
- Konto dzierżawy sieci szkieletowej z aktywną subskrypcją. Utwórz konto bezpłatnie.
- Obszar roboczy w usłudze Microsoft Fabric. Aby uzyskać więcej informacji, zobacz Tworzenie obszarów roboczych i zarządzanie nimi w usłudze Microsoft Fabric.
- Co najmniej jeden lakehouse w obszarze roboczym. Lakehouse służy jako domyślny system plików podczas definiowania zadania w platformie Spark. Aby uzyskać więcej informacji, zobacz Create a lakehouse (Tworzenie jeziora).
- Główny plik definicji zadania platformy Spark. Ten plik zawiera logikę aplikacji i jest obowiązkowy do uruchamiania zadania platformy Spark. Każda definicja zadania platformy Spark może mieć tylko jeden główny plik definicji.
Podczas tworzenia zadania platformy Spark musisz podać nazwę zadania platformy Spark. Nazwa musi być unikatowa w bieżącym obszarze roboczym. Nowa definicja zadania platformy Spark jest tworzona w bieżącym obszarze roboczym.
Tworzenie definicji zadania Spark w portalu Fabric
Aby utworzyć definicję zadania platformy Spark w portalu sieci szkieletowej, wykonaj następujące kroki:
- Zaloguj się do portalu Microsoft Fabric.
- Przejdź do żądanego obszaru roboczego, w którym chcesz utworzyć definicję zadania platformy Spark.
- Wybierz Nowy element>Definicja zadania Spark.
- W okienku Nowa definicja zadania platformy Spark podaj następujące informacje:
- Nazwa: wprowadź unikatową nazwę definicji zadania platformy Spark.
- Lokalizacja: wybierz lokalizację obszaru roboczego.
- Wybierz pozycję Utwórz , aby utworzyć definicję zadania platformy Spark.
Alternatywnym punktem wejścia do utworzenia definicji zadania platformy Spark jest kafelek Analiza danych przy użyciu SQL ... na stronie głównej Fabric. Tę samą opcję można znaleźć, wybierając kafelek Ogólne.
Po wybraniu kafelka zostanie wyświetlony monit o utworzenie nowego obszaru roboczego lub wybranie istniejącego. Po wybraniu obszaru roboczego zostanie otwarta strona tworzenia definicji zadania platformy Spark.
Dostosowywanie definicji zadania platformy Spark dla narzędzia PySpark (Python)
Przed utworzeniem definicji zadania Spark dla PySpark potrzebny jest przykładowy plik Parquet przesłany do lakehouse.
- Pobierz przykładowy plik Parquet yellow_tripdata_2022-01.parquet.
- Przejdź do lakehouse, do którego chcesz przesłać plik.
- Prześlij go do sekcji "Pliki" w lakehouse.
Aby utworzyć definicję zadania platformy Spark dla programu PySpark:
Wybierz pozycję PySpark (Python) z listy rozwijanej Język .
Pobierz przykładowy plik definicji createTablefromParquet.py . Przekaż go jako główny plik definicji. Główny plik definicji (zadanie. Main) to plik, który zawiera logikę aplikacji i jest obowiązkowy do uruchamiania zadania platformy Spark. Dla każdej definicji zadania platformy Spark można przekazać tylko jeden plik definicji głównej.
Uwaga
Możesz przekazać główny plik definicji z pulpitu lokalnego lub przekazać go z istniejącej usługi Azure Data Lake Storage (ADLS) Gen2, podając pełną ścieżkę ABFSS pliku. Na przykład
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.Opcjonalnie przekaż pliki referencyjne (Python) jako
.py. Pliki referencyjne to moduły języka Python importowane przez główny plik definicji. Podobnie jak plik definicji głównej, można przekazać z pulpitu lub z istniejącej usługi ADLS Gen2. Obsługiwane są wiele plików referencyjnych.Napiwek
Jeśli używasz ścieżki usługi ADLS Gen2, upewnij się, że plik jest dostępny. Musisz nadać konto użytkownika, które uruchamia zadanie, odpowiednie uprawnienia do konta magazynu. Poniżej przedstawiono dwa różne sposoby udzielania uprawnień:
- Przypisz konto użytkownika rolę Współautor dla konta magazynu.
- Udziel uprawnień odczyt i wykonanie do konta użytkownika dla pliku za pośrednictwem listy kontroli dostępu (ACL) usługi ADLS Gen2.
W przypadku ręcznego uruchamiania konto bieżącego zalogowanego użytkownika jest używane do uruchamiania zadania.
W razie potrzeby podaj argumenty wiersza polecenia dla zadania. Użyj spacji jako separatora, aby oddzielić argumenty.
Dodaj odwołanie do usługi Lakehouse do zadania. Musisz mieć co najmniej jedno odwołanie do usługi Lakehouse dodane do zadania. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania.
Obsługiwane są odwołania do wielu magazynów lakehouse. Znajdź inną niż domyślną nazwę lakehouse i pełny adres URL usługi OneLake na stronie Ustawienia platformy Spark.
Dostosowywanie definicji zadania platformy Spark dla języka Scala/Java
Aby utworzyć definicję zadania platformy Spark dla języka Scala/Java:
Wybierz pozycję Spark(Scala/Java) z listy rozwijanej Język .
Przekaż główny plik definicji jako
.jarplik (Java). Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania i jest obowiązkowy do uruchamiania zadania platformy Spark. Dla każdej definicji zadania platformy Spark można przekazać tylko jeden plik definicji głównej. Podaj nazwę klasy Main.Opcjonalnie prześlij pliki referencyjne w formacie
.jar(Java). Pliki referencyjne to pliki, które są odwoływane/importowane przez główny plik definicji.W razie potrzeby podaj argumenty wiersza polecenia dla zadania.
Dodaj odwołanie do usługi Lakehouse do zadania. Musisz mieć co najmniej jedno odwołanie do usługi Lakehouse dodane do zadania. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania.
Dostosowywanie definicji zadania platformy Spark dla języka R
Aby utworzyć definicję zadania platformy Spark dla platformy SparkR(R):
Wybierz pozycję SparkR(R) z listy rozwijanej Język .
Przekaż główny plik definicji jako plik
.r(R). Głównym plikiem definicji jest plik, który zawiera logikę aplikacji tego zadania i jest obowiązkowy do uruchamiania zadania platformy Spark. Dla każdej definicji zadania platformy Spark można przekazać tylko jeden plik definicji głównej.Opcjonalnie przekaż pliki referencyjne jako pliki
.r(R). Pliki referencyjne to pliki, do których się odwołuje/importowane przez główny plik definicji.W razie potrzeby podaj argumenty wiersza polecenia dla zadania.
Dodaj odwołanie do usługi Lakehouse do zadania. Musisz mieć co najmniej jedno odwołanie do usługi Lakehouse dodane do zadania. Ten lakehouse jest domyślnym kontekstem lakehouse dla zadania.
Uwaga
Definicja zadania platformy Spark jest tworzona w bieżącym obszarze roboczym.
Opcje dostosowywania definicji zadań platformy Spark
Istnieje kilka opcji dostosowywania wykonywania definicji zadań platformy Spark.
Spark Compute: na karcie Spark Compute można zobaczyć wersję środowiska uruchomieniowego Fabric używaną do uruchamiania zadań Spark. Możesz również wyświetlić ustawienia konfiguracji platformy Spark, które są używane do uruchamiania zadania. Ustawienia konfiguracji platformy Spark można dostosować, wybierając przycisk Dodaj .
Optymalizacja: na karcie Optymalizacja można włączyć i skonfigurować zasady ponawiania dla zadania. Po włączeniu zadanie zostanie ponowione, jeśli zakończy się niepowodzeniem. Można również ustawić maksymalną liczbę ponownych prób i interwał między ponowną próbą. Dla każdej próby ponawiania zadanie jest uruchamiane ponownie. Upewnij się, że zadanie jest idempotentne.