Udostępnij przez


Przekształcanie danych przez uruchomienie działania usługi Azure Databricks

Działanie usługi Azure Databricks w usłudze Data Factory dla usługi Microsoft Fabric umożliwia organizowanie następujących zadań usługi Azure Databricks:

  • Notatnik
  • Słoik
  • Python
  • Job

Ten artykuł zawiera szczegółowy przewodnik opisujący sposób tworzenia działania usługi Azure Databricks przy użyciu interfejsu usługi Data Factory.

Wymagania wstępne

Aby rozpocząć pracę, należy spełnić następujące wymagania wstępne:

Konfigurowanie działania usługi Azure Databricks

Aby użyć działania usługi Azure Databricks w potoku, wykonaj następujące kroki:

Konfigurowanie połączenia

  1. Utwórz nowy rurociąg w środowisku pracy.

  2. Wybierz Dodaj działanie potoku i wyszukaj Azure Databricks.

    Zrzut ekranu przedstawiający stronę docelową potoków Fabric i wyróżnione działanie usługi Azure Databricks.

  3. Alternatywnie możesz wyszukać usługę Azure Databricks w okienku Działania potoku i wybrać ją, aby dodać ją do kanwy potoku.

    Zrzut ekranu przedstawiający interfejs użytkownika Fabric z wyróżnionym panelem Działania i działaniem usługi Azure Databricks.

  4. Wybierz nowe działanie usługi Azure Databricks na kanwie, jeśli nie zostało jeszcze wybrane.

    Zrzut ekranu przedstawiający kartę Ustawienia ogólne działania usługi Azure Databricks.

Zapoznaj się ze wskazówkami dotyczącymi ustawień ogólnych, aby skonfigurować kartę Ustawienia ogólne.

Konfigurowanie klastrów

  1. Wybierz kartę Klaster. Następnie możesz wybrać istniejące lub utworzyć nowe połączenie usługi Azure Databricks, a następnie wybrać nowy klaster zadań, istniejący klaster interaktywny lub istniejącą pulę wystąpień.

  2. W zależności od wybranego klastra wypełnij odpowiednie pola, jak pokazano.

    • W obszarze nowego zestawu zadań i istniejącej puli wystąpień masz również możliwość skonfigurowania liczby pracowników i włączenia wystąpień typu spot.
  3. Możesz również określić inne ustawienia klastra, takie jak zasady klastra, konfiguracja platformy Spark, zmienne środowiskowe platformy Spark i tagi niestandardowe, zgodnie z wymaganiami dotyczącymi klastra, z którym nawiązujesz połączenie. Skrypty inicjowania usługi Databricks i ścieżka docelowa logów klastra mogą również być dodane pod dodatkowymi ustawieniami klastra.

    Uwaga

    Wszystkie zaawansowane właściwości klastra i wyrażenia dynamiczne obsługiwane w połączonej usłudze Azure Databricks w Azure Data Factory są teraz również obsługiwane w działaniu usługi Azure Databricks w usłudze Microsoft Fabric w sekcji "Dodatkowa konfiguracja klastra" w interfejsie użytkownika. Ponieważ te właściwości są teraz uwzględniane w interfejsie użytkownika działania, można ich używać z wyrażeniem (zawartość dynamiczna) bez konieczności specyfikacji Advanced JSON.

    Zrzut ekranu przedstawiający kartę Ustawienia klastra działania usługi Azure Databricks.

  4. Działanie usługi Azure Databricks teraz również obsługuje zasady klastra i Unity Catalog.

    • W obszarze ustawienia zaawansowane można wybrać zasady klastra , aby określić, które konfiguracje klastra są dozwolone.
    • Ponadto w obszarze ustawień zaawansowanych można skonfigurować tryb dostępu katalogu Unity dla zwiększonego bezpieczeństwa. Dostępne typy trybu dostępu to:
      • Tryb dostępu dla pojedynczego użytkownika Ten tryb jest przeznaczony dla scenariuszy, w których każdy klaster jest używany przez jednego użytkownika. Gwarantuje to, że dostęp do danych w klastrze jest ograniczony tylko do tego użytkownika. Ten tryb jest przydatny w przypadku zadań wymagających izolacji i indywidualnej obsługi danych.
      • Tryb dostępu współdzielonego W tym trybie wielu użytkowników może uzyskać dostęp do tego samego klastra. Łączy zarządzanie danymi Katalogu Unity ze starymi listami kontroli dostępu do tabel (ACL). Ten tryb umożliwia współpracę przy dostępie do danych, jednocześnie zachowując protokoły zarządzania i zabezpieczeń. Jednak ma pewne ograniczenia, takie jak brak obsługi środowiska Databricks Runtime ML, zadań Spark-submit oraz określonych interfejsów API platformy Spark i funkcji zdefiniowanych przez użytkownika.
      • Tryb braku dostępu Ten tryb wyłącza interakcję z Unity Catalog, co oznacza, że klastry nie mają dostępu do danych zarządzanych przez Unity Catalog. Ten tryb jest przydatny w przypadku obciążeń, które nie wymagają funkcji zarządzania w katalogu Unity.

    Zrzut ekranu przedstawiający identyfikator zasad i obsługę Katalogu Unity na karcie Ustawienia klastra w aktywności Azure Databricks.

Konfigurowanie ustawień

Wybierając kartę Ustawienia, możesz wybrać spośród 4 opcji, którym typem usługi Azure Databricks chcesz zarządzać.

Zrzut ekranu przedstawiający kartę Ustawienia działania usługi Azure Databricks.

Zarządzanie typem notebooka w działaniu usługi Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk opcji Notebook, aby uruchomić Notebook. Należy określić ścieżkę notatnika do wykonania w usłudze Azure Databricks, opcjonalne parametry bazowe, które mają zostać przekazane do notatnika, oraz wszelkie dodatkowe biblioteki do zainstalowania w klastrze w celu wykonania procesu.

Zrzut ekranu przedstawiający rodzaj notesów w działaniach usługi Azure Databricks.

Orkiestracja typu Jar w działaniu usługi Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk radiowy Jar, aby uruchomić plik Jar. Należy określić nazwę klasy do wykonania w usłudze Azure Databricks, opcjonalne parametry podstawowe, które mają zostać przekazane do pliku Jar, oraz wszelkie dodatkowe biblioteki, które mają zostać zainstalowane w klastrze w celu wykonania zadania.

Zrzut ekranu przedstawiający typ JAR działania usługi Azure Databricks.

Koordynowanie typu Python w działaniach Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk radiowy Języka Python, aby uruchomić plik w języku Python. Należy określić ścieżkę w usłudze Azure Databricks do pliku w języku Python, który ma zostać wykonany, opcjonalne parametry podstawowe, które mają zostać przekazane, oraz wszelkie dodatkowe biblioteki, które mają zostać zainstalowane w klastrze w celu wykonania zadania.

Zrzut ekranu przedstawiający typ języka Python działania usługi Azure Databricks.

Organizowanie typu zadania w działaniu usługi Azure Databricks:

Na karcie Ustawienia możesz wybrać przycisk radiowy Zadanie , aby uruchomić zadanie usługi Databricks. Należy określić zadanie za pomocą listy rozwijanej do wykonania w usłudze Azure Databricks oraz dowolne opcjonalne parametry zadania, które mają zostać przekazane. Za pomocą tej opcji można uruchamiać zadania bezserwerowe.

Zrzut ekranu przedstawiający typ zadania działania usługi Azure Databricks.

Obsługiwane biblioteki dla działania usługi Azure Databricks

W powyższej definicji działania usługi Databricks można określić następujące typy bibliotek: jar, egg, whl, maven, pypi, cran.

Aby uzyskać więcej informacji, zobacz dokumentację usługi Databricks dotyczącą typów bibliotek.

Przekazywanie parametrów między działaniem usługi Azure Databricks i potokami

Parametry można przekazać do notesów przy użyciu właściwości baseParameters w działaniu usługi Databricks.

Zrzut ekranu przedstawiający sposób przekazywania podstawowych parametrów w działaniu usługi Azure Databricks.

Czasami możesz potrzebować zwrócenia wartości z notesu do usługi w celu sterowania przepływem lub ich użycia w działaniach podrzędnych (z limitem rozmiaru wynoszącym 2 MB).

  1. Na przykład w notesie możesz wywołać metodę dbutils.notebook.exit("returnValue"), a odpowiednia wartość "returnValue" zostanie zwrócona do usługi.

  2. Dane wyjściowe w usłudze można wykorzystać, używając wyrażenia takiego jak @{activity('databricks activity name').output.runOutput}.

Zapisz i uruchom lub zaplanuj pipeline

Po skonfigurowaniu innych działań wymaganych dla potoku przejdź do karty Narzędzia główne w górnej części edytora potoków i wybierz przycisk zapisz, aby zapisać potok. Wybierz pozycję Uruchom , aby uruchomić go bezpośrednio lub Zaplanuj , aby go zaplanować. Historię uruchamiania można również wyświetlić tutaj lub skonfigurować inne ustawienia.

Zrzut ekranu pokazujący, jak zapisać i uruchomić potok.

Jak monitorować przebiegi potoków