Udostępnij przez


Przekształcanie danych poprzez uruchomienie definicji zadania Synapse Spark

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Działanie definicji zadania usługi Azure Synapse Spark w potoku uruchamia definicję zadania usługi Synapse Spark w obszarze roboczym usługi Azure Synapse Analytics. Ten artykuł opiera się na artykule dotyczącym działań przekształcania danych, który zawiera ogólne omówienie transformacji danych i obsługiwanych działań przekształcania.

Ustawianie kanwy definicji zadania platformy Apache Spark

Aby użyć aktywności definicji zadania Spark dla Synapse w ramach potoku, wykonaj następujące kroki:

Ustawienia ogólne

  1. Wyszukaj definicję zadania platformy Spark w okienku Działania potoku i przeciągnij działanie definicji zadania platformy Spark w obszarze synapse do kanwy potoku.

  2. Wybierz nowe działanie definiowania zadania Spark w obszarze roboczym, jeśli nie zostało jeszcze wybrane.

  3. Na karcie Ogólne wprowadź wzór dla Nazwy.

  4. (Opcja) Możesz również wprowadzić opis.

  5. Limit czasowy: maksymalny czas trwania aktywności. Wartość domyślna to siedem dni, czyli maksymalny dozwolony czas. Format jest w formacie D.HH:MM:SS.

  6. Ponów próbę: maksymalna liczba ponownych prób.

  7. Interwał ponawiania prób: liczba sekund między poszczególnymi próbami ponawiania próby.

  8. Bezpieczne dane wyjściowe: po zaznaczeniu dane wyjściowe z działania nie będą przechwytywane podczas rejestrowania.

  9. Bezpieczne dane wejściowe: po zaznaczeniu dane wejściowe z działania nie będą przechwytywane podczas rejestrowania.

Ustawienia usługi Azure Synapse Analytics (Artefakty)

  1. Wybierz nowe działanie definiowania zadania Spark w obszarze roboczym, jeśli nie zostało jeszcze wybrane.

  2. Wybierz kartę Azure Synapse Analytics (Artifacts), aby wybrać lub utworzyć nową połączoną usługę Azure Synapse Analytics, która uruchomi działanie definicji zadania Spark.

    Zrzut ekranu przedstawiający interfejs użytkownika połączonej karty usługi dla działania definicji zadania platformy Spark.

Karta Ustawienia

  1. Wybierz nowe działanie definiowania zadania Spark w obszarze roboczym, jeśli nie zostało jeszcze wybrane.

  2. Wybierz kartę Ustawienia.

  3. Rozwiń listę definicji zadań platformy Spark. Możesz wybrać istniejącą definicję zadania platformy Apache Spark w połączonym obszarze roboczym usługi Azure Synapse Analytics.

  4. (Opcjonalnie) Możesz wypełnić informacje dotyczące definicji zadania platformy Apache Spark. Jeśli następujące ustawienia są puste, do uruchomienia zostaną użyte ustawienia samej definicji zadania platformy Spark; Jeśli następujące ustawienia nie są puste, te ustawienia zastąpią ustawienia samej definicji zadania platformy Spark.

    Majątek opis
    Główny plik definicji Główny plik używany do zadania. Wybierz plik PY/JAR/ZIP z magazynu. Możesz wybrać pozycję Przekaż plik , aby przekazać plik na konto magazynu.
    Przykład: abfss://…/path/to/wordcount.jar
    Odwołania z podfolderów Skanowanie podfolderów z folderu głównego głównego pliku definicji spowoduje dodanie tych plików jako plików referencyjnych. Foldery o nazwie "jars", "pyFiles", "files" lub "archives" będą skanowane, a nazwa folderów uwzględnia wielkość liter.
    Nazwa klasy głównej W pełni kwalifikowany identyfikator lub klasa główna, która znajduje się w głównym pliku definicji.
    Przykład: WordCount
    Argumenty wiersza polecenia Argumenty wiersza polecenia można dodać, klikając przycisk Nowy . Należy zauważyć, że dodanie argumentów wiersza polecenia spowoduje zastąpienie argumentów wiersza polecenia zdefiniowanych przez definicję zadania platformy Spark.
    Próbka: abfss://…/path/to/shakespeare.txtabfss://…/path/to/result
    Zasób Apache Spark Z listy możesz wybrać pulę Apache Spark.
    Referencja kodu w Pythonie Dodatkowe pliki kodu języka Python używane do celów referencyjnych w głównym pliku definicji.
    Obsługuje przekazywanie plików (.py, .py3, .zip) do właściwości "pyFiles". Spowoduje to zastąpienie właściwości "pyFiles" zdefiniowanej w definicji zadania platformy Spark.
    Pliki referencyjne Dodatkowe pliki używane jako odniesienie w głównym pliku definicji.
    Zasób Apache Spark Z listy możesz wybrać pulę Apache Spark.
    Dynamiczne przydzielanie funkcji wykonawczych To ustawienie mapuje na właściwość alokacji dynamicznej w konfiguracji platformy Spark dla alokacji funkcji wykonawczych aplikacji platformy Spark.
    Minimalna liczba funkcji wykonawczych Minimalna liczba funkcji wykonawczych do przydzielenia w określonej puli Spark dla zadania.
    Maksymalna liczba wykonawców Maksymalna liczba funkcji wykonawczych do przydzielenia w określonej puli Spark dla zadania.
    Rozmiar sterownika Liczba rdzeni i pamięci, które mają być używane dla sterownika podanego w określonej puli platformy Apache Spark dla zadania.
    Konfiguracja platformy Spark Określ wartości właściwości konfiguracji platformy Spark wymienione w temacie: Konfiguracja platformy Spark — właściwości aplikacji. Użytkownicy mogą używać konfiguracji domyślnej i dostosowanej konfiguracji.
    Uwierzytelnianie Tożsamości zarządzane przypisane przez użytkownika lub tożsamości zarządzane przypisane przez system są już obsługiwane w definicjach zadań platformy Spark.

    Zrzut ekranu przedstawiający interfejs użytkownika działania definicji zadania platformy Spark.

  5. Zawartość dynamiczną można dodać, klikając przycisk Dodaj zawartość dynamiczną lub naciskając skrót++D. Na stronie Dodawanie zawartości dynamicznej można użyć dowolnej kombinacji wyrażeń, funkcji i zmiennych systemowych, aby dodać do zawartości dynamicznej.

    Zrzut ekranu przedstawiający interfejs użytkownika umożliwiający dodawanie zawartości dynamicznej do działań definicji zadań platformy Spark.

Karta Właściwości użytkownika

W tym panelu można dodać właściwości definicji zadania dla działania na platformie Apache Spark.

Zrzut ekranu przedstawiający interfejs użytkownika dla właściwości działania definicji zadania platformy Spark.

Definicja działania definicji zadania platformy Spark w usłudze Azure Synapse

Oto przykładowa definicja JSON działania notatnika usługi Azure Synapse Analytics.

 {
        "activities": [
            {
                "name": "Spark job definition1",
                "type": "SparkJob",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "typeProperties": {
                    "sparkJob": {
                        "referenceName": {
                            "value": "Spark job definition 1",
                            "type": "Expression"
                        },
                        "type": "SparkJobDefinitionReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ],
    }

Właściwości definicji zadania platformy Azure Synapse Spark

W poniższej tabeli opisano właściwości JSON używane w definicji JSON:

Majątek opis Wymagany
nazwa Nazwa działania w rurociągu. Tak
opis Tekst opisujący działanie. Nie.
typ W przypadku aktywności definiowania zadania Spark w Azure Synapse, typ aktywności to SparkJob. Tak

Zobacz Historia uruchamiania definicji zadań platformy Azure Synapse Spark

Przejdź do pozycji Uruchomienia potoku na karcie Monitor . Zobaczysz wyzwolony potok. Otwórz potok zawierający aktywność definicji zadania Azure Synapse Spark, aby wyświetlić historię wykonania.

Zrzut ekranu przedstawiający interfejs użytkownika dla danych wejściowych i wyjściowych dla działania definicji zadania platformy Spark.

Możesz zobaczyć aktywność notatnika wejściową lub wyjściową, wybierając przycisk Wejście lub Wyjście. Jeśli potok nie powiódł się z powodu błędu użytkownika, wybierz dane wyjściowe i sprawdź pole rezultatu, aby zobaczyć szczegółowe śledzenie błędów użytkownika.

Zrzut ekranu przedstawiający interfejs użytkownika dla błędu użytkownika wyjściowego dla uruchomienia działania definicji zadania platformy Spark.