Udostępnij przez


Łączniki zarządzane w programie Lakeflow Connect

Ważne

Łączniki zarządzane w programie Lakeflow Connect znajdują się w różnych stanach wydania.

Ten artykuł zawiera omówienie łączników zarządzanych w usłudze Databricks Lakeflow Connect na potrzeby pozyskiwania danych z aplikacji SaaS i baz danych. Potok danych wejściowych jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w ramach usługi Lakeflow. Łączniki zarządzane wykorzystują wydajne operacje odczytu i zapisu przyrostowego w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, a dane pozostają świeże do użycia podrzędnego.

Składniki łącznika SaaS

Łącznik SaaS ma następujące składniki:

Składnik Opis
Połączenie Zabezpieczony element Unity Catalog, który przechowuje szczegóły uwierzytelniania dla aplikacji.
Potok pozyskiwania Potok danych, który kopiuje dane z aplikacji do tabel docelowych. Potok przetwarzania danych działa w środowisku bezserwerowym.
Tabele docelowe Tabele, w które strumień danych zapisuje informacje. Są to tabele przesyłania strumieniowego, czyli tabele Delta z dodatkową obsługą przetwarzania danych przyrostowych.

Diagram składników łącznika SaaS

Składniki łącznika bazy danych

Łącznik bazy danych ma następujące składniki:

Składnik Opis
Połączenie Obiekt zabezpieczalny katalogu Unity, który przechowuje detale uwierzytelniania bazy danych.
Brama pozyskiwania Przepływ danych, który wyodrębnia migawki, dzienniki zmian i metadane ze źródłowej bazy danych. Brama działa w klasycznym środowisku obliczeniowym i działa w sposób ciągły w celu przechwytywania zmian, zanim dzienniki zmian mogą zostać skrócone w źródle.
Magazyn tymczasowy Wolumen Unity Catalog, który tymczasowo przechowuje wyodrębnione dane przed ich użyciem w tabeli docelowej. Dzięki temu można uruchamiać potok pozyskiwania według dowolnego harmonogramu, nawet gdy brama nieustannie przechwytuje zmiany. Pomaga również w recuperacji po awarii. Wolumin magazynu przejściowego jest tworzony automatycznie podczas wdrażania bramy i można dostosować katalog i schemat, w którym się znajduje. Dane są automatycznie usuwane z obszaru tymczasowego po upływie 30 dni.
Potok pozyskiwania Przepływ danych, który przenosi dane z magazynu przejściowego do tabel docelowych. Pipeline działa na bezserwerowych obliczeniach.
Tabele docelowe Tabele, w które strumień danych zapisuje informacje. Są to tabele przesyłania strumieniowego, czyli tabele Delta z dodatkową obsługą przetwarzania danych przyrostowych.

Diagram składników łącznika bazy danych

Orkiestracja

Potok pozyskiwania można uruchomić w jednym lub kilku niestandardowych harmonogramach. Dla każdego harmonogramu dodawanego do potoku, program Lakeflow Connect automatycznie tworzy zadanie dla tego harmonogramu. Potok przetwarzania jest zadaniem w ramach pracy. Opcjonalnie możesz dodać więcej zadań do zadania.

Diagram aranżacji potoku dla łączników SaaS

W przypadku łączników bazy danych brama pozyskiwania jest uruchamiana we własnym zadaniu jako zadanie ciągłe.

Diagram orkiestracji pipeline'u dla łączników bazy danych

Pozyskiwanie przyrostowe

Lakeflow Connect używa pozyskiwania przyrostowego w celu zwiększenia wydajności przepływu. Podczas pierwszego uruchomienia ścieżki, pobierane są wszystkie wybrane dane ze źródła. Równolegle śledzi zmiany w danych źródłowych. W każdorazowym uruchomieniu potoku używa się śledzenia zmian, aby pobierać tylko te dane, które zmieniły się od poprzedniego uruchomienia, o ile to możliwe.

Dokładne podejście zależy od tego, co jest dostępne w źródle danych. Można na przykład użyć funkcji śledzenia zmian i przechwytywania danych zmian (CDC) z programem SQL Server. Z kolei łącznik usługi Salesforce wybiera kolumnę kursora z listy opcji.

Niektóre źródła lub określone tabele nie obsługują obecnie przyrostowego pobierania danych. Databricks planuje rozszerzyć zakres wsparcia przyrostowego.

Sieć

Istnieje kilka opcji nawiązywania połączenia z aplikacją lub bazą danych SaaS.

  • Łączniki aplikacji SaaS docierają do interfejsów API źródła. Są one również automatycznie zgodne z bezserwerowymi kontrolkami ruchu wychodzącego.
  • Łączniki dla baz danych w chmurze mogą łączyć się ze źródłem za pośrednictwem usługi Private Link. Alternatywnie, jeśli obszar roboczy ma sieć wirtualną (VNet) lub wirtualną chmurę prywatną (VPC), która jest połączona z siecią wirtualną lub wirtualną chmurą prywatną hostującą bazę danych, możesz wdrożyć wewnątrz niej bramkę pozyskiwania.
  • Łączniki dla lokalnych baz danych mogą łączyć się przy użyciu usług, takich jak AWS Direct Connect i Azure ExpressRoute.

Wdrożenie

Potoki pozyskiwania można wdrażać przy użyciu pakietów zasobów usługi Databricks, które umożliwiają najlepsze rozwiązania, takie jak kontrola źródła, przegląd kodu, testowanie i ciągła integracja i ciągłe dostarczanie (CI/CD). Pakiety są zarządzane przy użyciu interfejsu wiersza polecenia usługi Databricks i mogą być uruchamiane w różnych docelowych środowiskach roboczych, takich jak programistyczny, testowy i produkcyjny.

Odzyskiwanie po awarii

Jako w pełni zarządzana usługa Lakeflow Connect ma na celu automatyczne odzyskiwanie po problemach, gdy jest to możliwe. Na przykład gdy łącznik ulegnie awarii, automatycznie ponawia próbę z wycofywaniem wykładniczym.

Istnieje jednak możliwość, że błąd wymaga interwencji (na przykład po wygaśnięciu poświadczeń). W takich przypadkach łącznik próbuje uniknąć braku danych, przechowując ostatnią pozycję kursora. Następnie może kontynuować z tego miejsca przy kolejnym uruchomieniu potoku, jeśli to możliwe.

Nadzorowanie

Lakeflow Connect zapewnia niezawodne alerty i monitorowanie, aby pomóc w utrzymaniu potoków. Obejmuje to dzienniki zdarzeń, dzienniki klastra, metryki kondycji potoku i metryki jakości danych.

Zgodność funkcji

Poniższa tabela zawiera podsumowanie dostępności funkcji dla każdego zarządzanego łącznika pozyskiwania. Aby uzyskać dodatkowe funkcje i ograniczenia, zapoznaj się z dokumentacją konkretnego łącznika.

Funkcja Google Analytics MySQL NetSuite Salesforce Workday SQL Server PostgreSQL ServiceNow Program SharePoint
Stan Dostępne ogólnie Podgląd publiczny Podgląd publiczny Dostępne ogólnie Dostępne ogólnie Dostępne ogólnie Podgląd publiczny Dostępne ogólnie Beta
Tworzenie potoków opartych na interfejsie użytkownika Nie. zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Nie.
Tworzenie rurociągu opartego na interfejsie API Tak zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Tak
Pakiety zasobów Databricks Tak zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Tak
Pozyskiwanie przyrostowe Tak zaznacz pole wyboru oznaczone jako tak Tak Tak — z tymczasowym wyjątkiem dla pól formuły. Aby uzyskać szczegółowe informacje, zobacz Jak łącznik przyrostowo ściąga aktualizacje?. Tak Tak zaznacz pole wyboru oznaczone jako tak Tak — w przypadku wyjątków, gdy w tabeli brakuje pola kursora. Tak
Nadzór katalogu Unity Tak zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Tak
Orkiestracja przy użyciu przepływów pracy usługi Databricks Tak zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Tak
Typ SCD 2 Tak zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Tak
Wybór i odznaczenie kolumn oparty na interfejsie API Tak zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Tak
Automatyczna ewolucja schematu: nowe i usunięte kolumny Tak zaznacz pole wyboru oznaczone jako tak Tak Tak Tak Tak zaznacz pole wyboru oznaczone jako tak Tak Tak
Automatyczna ewolucja schematu: zmiany typu danych Nie. znak x oznacza nie Nie. Nie. Nie. Nie. znaczek x - nie Nie. Nie.
Automatyczna ewolucja schematu: nazwy kolumn Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). zaznacz pole wyboru oznaczone jako tak
Traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).
Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). Nie — po włączeniu obiektów DDL łącznik może zmienić nazwę kolumny. Gdy obiekty DDL nie są włączone, łącznik traktuje go jako nową kolumnę (nową nazwę) i usuniętą kolumnę (starą nazwę). W obu przypadkach wymaga pełnego odświeżenia. Nie — po włączeniu obiektów DDL łącznik może zmienić nazwę kolumny. Gdy obiekty DDL nie są włączone, łącznik traktuje go jako nową kolumnę (nową nazwę) i usuniętą kolumnę (starą nazwę). W obu przypadkach wymaga pełnego odświeżenia. Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).
Automatyczna ewolucja schematu: nowe tabele Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. zaznacz pole wyboru oznaczone jako tak
W przypadku załadowania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.
Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. N/A Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. zaznacz pole wyboru oznaczone jako tak
W przypadku importowania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.
Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.
Maksymalna liczba tabel na jeden potok 250 250 200 250 250 250 250 250 250

Metody uwierzytelniania

W poniższej tabeli wymieniono obsługiwane metody uwierzytelniania dla każdego zarządzanego łącznika pozyskiwania. Usługa Databricks zaleca używanie protokołu OAuth U2M lub OAuth M2M, jeśli jest to możliwe. Jeśli łącznik obsługuje protokół OAuth U2M lub OAuth M2M, uwierzytelnianie podstawowe i uwierzytelnianie OAuth z ręcznym odświeżaniem tokenu są uznawane za starsze metody uwierzytelniania.

Connector OAuth U2M OAuth M2M OAuth (token odświeżania ręcznego) Uwierzytelnianie podstawowe (nazwa użytkownika/hasło) Uwierzytelnianie podstawowe (klucz JSON konta usługi) Uwierzytelnianie oparte na tokenach
Konfluencja Tak Nie. Nie. Nie. Nie. Nie.
Nieprzetworzone dane usługi Google Analytics Tak Nie. Nie. Nie. Tak (tylko interfejs API) Nie.
MySQL Nie. Nie. Nie. Tak Nie. Nie.
NetSuite Nie. Nie. Nie. Nie. Nie. Tak
Salesforce Tak Nie. Nie. Nie. Nie. Nie.
ServiceNow Tak Nie. Tak (tylko interfejs API) Nie. Nie. Nie.
Program SharePoint Tak Tak (publiczna wersja zapoznawcza) Tak Nie. Nie. Nie.
SQL Server Tak Tak Nie. Nie. Tak Nie.
PostgreSQL Nie. Nie. Nie. Tak Nie. Nie.
Raporty produktu Workday Nie. Nie. Tak Tak Nie. Nie.

Zależność od usług zewnętrznych

Usługa Databricks SaaS, baza danych i inne w pełni zarządzane łączniki zależą od dostępności, zgodności i stabilności aplikacji, bazy danych lub usługi zewnętrznej, z którą się łączą. Usługa Databricks nie kontroluje tych usług zewnętrznych, dlatego ma ograniczony (jeśli istnieje) wpływ na zmiany, aktualizacje i konserwację.

Jeśli zmiany, zakłócenia lub okoliczności związane z usługą zewnętrzną utrudniają lub uniemożliwiają działanie łącznika, Databricks może zaprzestać utrzymywania tego łącznika. Databricks podejmie uzasadnione wysiłki, aby powiadomić klientów o zaprzestaniu serwisowania, w tym o aktualizacjach odpowiedniej dokumentacji.