Udostępnij przez


Przegląd linii przetwarzania

Potoki w usłudze Microsoft Fabric Data Factory ułatwiają organizowanie i automatyzowanie przepływów pracy danych. Pipeline to logiczne grupowanie działań, które razem realizują zadanie. Na przykład pipeline może zawierać zestaw działań, które pozyskują i czyszczą logi, a następnie uruchamiają przepływ danych w celu ich analizy.

Pipeline pozwala zarządzać działaniami w formie zestawu, zamiast każdego z osobna. Można wdrażać i planować cały potok zamiast indywidualnych działań.

Kiedy należy używać potoków

Potoki rozwiązują typowe wyzwania związane z danymi, automatyzując powtarzające się zadania i zapewniając spójne przetwarzanie danych.

Załóżmy, że jesteś firmą detaliczną, która musi przetwarzać dzienne dane sprzedaży z wielu sklepów. Każdego dnia musisz:

  1. Zbieranie danych z systemów punktów sprzedaży, zamówień online i baz danych zapasów
  2. Weryfikowanie i czyszczenie danych w celu zapewnienia dokładności
  3. Przekształć dane, obliczając dzienne sumy, stosując reguły biznesowe i wzbogacając informacje o klientach
  4. Ładowanie przetworzonych danych do magazynu danych na potrzeby raportowania
  5. Powiadamianie zespołu ds. analizy biznesowej, gdy dane są gotowe

Potok danych automatyzuje cały przepływ pracy. Jest uruchamiany zgodnie z harmonogramem, zapewnia wgląd w każdy krok oraz obsługuje błędy z gracją. Przetwarzanie danych jest spójne i terminowe bez ręcznej interwencji.

Kluczowe składniki rurociągu

Potoki składają się z kilku kluczowych składników, które współpracują ze sobą w celu tworzenia zaawansowanych przepływów danych. Główne składniki obejmują działania, które wykonują pracę i dodają logikę do potoku, harmonogramy lub wyzwalacze, które określają, kiedy uruchamiane są potoki, oraz parametry, które sprawiają, że potoki są elastyczne i mogą być wielokrotnie używane.

Activities

Działania to bloki konstrukcyjne przepływu pracy. Każde działanie wykonuje określone zadanie i istnieją trzy główne typy działań:

Możesz połączyć działania w łańcuch, aby tworzyć złożone przepływy pracy. Po zakończeniu jednego działania może ono wyzwolić następne działanie na podstawie powodzenia, niepowodzenia lub stanu ukończenia.

Aby uzyskać pełną listę dostępnych działań i więcej informacji, zobacz omówienie działań.

Przebiegi potoków i planowanie

Uruchomienie potoku następuje, gdy potok jest wykonywany. Podczas przebiegu wszystkie działania w potoku są przetwarzane i wykonywane. Każde uruchomienie potoku pobiera własny unikatowy identyfikator przebiegu, którego można użyć do śledzenia i monitorowania.

Uruchomienia potoku można uruchomić na trzy sposoby:

  • Uruchomienia na żądanie: wybierz pozycję Uruchom w edytorze potoków, aby bezpośrednio uruchomić. Należy zapisać wszelkie zmiany przed uruchomieniem potoku.

    Zrzut ekranu przedstawiający miejsce wybrania pozycji Uruchom na karcie Narzędzia główne.

  • Zaplanowane uruchomienia: Skonfiguruj automatyczne uruchomienia na podstawie czasu i częstotliwości. Podczas tworzenia harmonogramu należy określić daty rozpoczęcia i zakończenia, częstotliwość i strefę czasową.

    Zrzut ekranu przedstawiający miejsce wybrania pozycji Harmonogram na karcie Narzędzia główne.

  • Uruchomienia oparte na zdarzeniach: użyj wyzwalaczy zdarzeń, aby uruchomić potok po wystąpieniu określonych zdarzeń, takich jak nowe pliki przychodzące w usłudze Data Lake lub zmiany w bazie danych.

    Zrzut ekranu przedstawiający, gdzie wybrać pozycję Wyzwalacz, aby dodać wyzwalacze uruchamiania oparte na zdarzeniach na karcie Narzędzia główne.

Aby uzyskać więcej informacji, zobacz Uruchamianie, planowanie lub wyzwalanie potoku.

Parametry i zmienne

Parametry sprawiają, że potoki są elastyczne. Podczas uruchamiania potoku można przekazać różne wartości, co pozwala na przetwarzanie różnych zestawów danych przez ten sam potok lub używanie różnych konfiguracji.

Zmienne przechowują wartości tymczasowe w trakcie realizacji potoku danych. Można ich używać do przekazywania danych między działaniami lub podejmowania decyzji na podstawie warunków środowiska uruchomieniowego.

Aby uzyskać więcej informacji, zobacz Jak używać parametrów, wyrażeń i funkcji w potokach.

Monitorowanie potoków i zarządzanie nimi

Platforma Fabric zapewnia kompleksowe monitorowanie potoków:

  • Monitorowanie w czasie rzeczywistym: Śledź postęp potoku podczas jego działania, korzystając z wizualnych wskaźników stanu każdego etapu.
  • Historia uruchamiania: Przejrzyj wcześniejsze wykonania, aby zidentyfikować wzorce i rozwiązać problemy
  • Metryki wydajności: analizowanie czasów wykonywania i użycia zasobów w celu optymalizacji potoków
  • Ścieżka audytu: Śledzenie, kto uruchamiał które potoki i kiedy, z dziennikami zawierającymi szczegóły czasu rozpoczęcia, zakończenia, czas trwania działalności, komunikaty o błędach oraz pochodzenie danych.

Aby uzyskać więcej informacji, zobacz Monitorowanie przebiegów potoków.

Najlepsze rozwiązania

Podczas projektowania potoków należy wziąć pod uwagę następujące zalecenia:

  • Rozpocznij od prostego: zacznij od podstawowego przenoszenia danych i stopniowo zwiększaj złożoność
  • Użyj parametrów: umożliwia ponowne używanie potoków przez parametryzowanie połączeń i ścieżek plików
  • Obsługa błędów: Planowanie niepowodzeń przy użyciu logiki ponawiania prób i alternatywnych ścieżek przetwarzania
  • Monitorowanie wydajności: Regularne przeglądanie czasów wykonywania i optymalizowanie powolnych działań
  • Dokładnie przetestuj: sprawdź potoki przy użyciu przykładowych danych przed przetworzeniem zadań produkcyjnych

Dalsze kroki