Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ważne
Łączniki zarządzane w programie Lakeflow Connect znajdują się w różnych stanach wydania.
Ten artykuł zawiera omówienie łączników zarządzanych w usłudze Databricks Lakeflow Connect na potrzeby pozyskiwania danych z aplikacji SaaS i baz danych. Potok danych wejściowych jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w ramach usługi Lakeflow. Łączniki zarządzane wykorzystują wydajne operacje odczytu i zapisu przyrostowego w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, a dane pozostają świeże do użycia podrzędnego.
Składniki łącznika SaaS
Łącznik SaaS ma następujące składniki:
| Składnik | Opis |
|---|---|
| Połączenie | Zabezpieczony element Unity Catalog, który przechowuje szczegóły uwierzytelniania dla aplikacji. |
| Potok pozyskiwania | Potok danych, który kopiuje dane z aplikacji do tabel docelowych. Potok przetwarzania danych działa w środowisku bezserwerowym. |
| Tabele docelowe | Tabele, w które strumień danych zapisuje informacje. Są to tabele przesyłania strumieniowego, czyli tabele Delta z dodatkową obsługą przetwarzania danych przyrostowych. |
Składniki łącznika bazy danych
Łącznik bazy danych ma następujące składniki:
| Składnik | Opis |
|---|---|
| Połączenie | Obiekt zabezpieczalny katalogu Unity, który przechowuje detale uwierzytelniania bazy danych. |
| Brama pozyskiwania | Przepływ danych, który wyodrębnia migawki, dzienniki zmian i metadane ze źródłowej bazy danych. Brama działa w klasycznym środowisku obliczeniowym i działa w sposób ciągły w celu przechwytywania zmian, zanim dzienniki zmian mogą zostać skrócone w źródle. |
| Magazyn tymczasowy | Wolumen Unity Catalog, który tymczasowo przechowuje wyodrębnione dane przed ich użyciem w tabeli docelowej. Dzięki temu można uruchamiać potok pozyskiwania według dowolnego harmonogramu, nawet gdy brama nieustannie przechwytuje zmiany. Pomaga również w recuperacji po awarii. Wolumin magazynu przejściowego jest tworzony automatycznie podczas wdrażania bramy i można dostosować katalog i schemat, w którym się znajduje. Dane są automatycznie usuwane z obszaru tymczasowego po upływie 30 dni. |
| Potok pozyskiwania | Przepływ danych, który przenosi dane z magazynu przejściowego do tabel docelowych. Pipeline działa na bezserwerowych obliczeniach. |
| Tabele docelowe | Tabele, w które strumień danych zapisuje informacje. Są to tabele przesyłania strumieniowego, czyli tabele Delta z dodatkową obsługą przetwarzania danych przyrostowych. |
Orkiestracja
Potok pozyskiwania można uruchomić w jednym lub kilku niestandardowych harmonogramach. Dla każdego harmonogramu dodawanego do potoku, program Lakeflow Connect automatycznie tworzy zadanie dla tego harmonogramu. Potok przetwarzania jest zadaniem w ramach pracy. Opcjonalnie możesz dodać więcej zadań do zadania.
W przypadku łączników bazy danych brama pozyskiwania jest uruchamiana we własnym zadaniu jako zadanie ciągłe.
Pozyskiwanie przyrostowe
Lakeflow Connect używa pozyskiwania przyrostowego w celu zwiększenia wydajności przepływu. Podczas pierwszego uruchomienia ścieżki, pobierane są wszystkie wybrane dane ze źródła. Równolegle śledzi zmiany w danych źródłowych. W każdorazowym uruchomieniu potoku używa się śledzenia zmian, aby pobierać tylko te dane, które zmieniły się od poprzedniego uruchomienia, o ile to możliwe.
Dokładne podejście zależy od tego, co jest dostępne w źródle danych. Można na przykład użyć funkcji śledzenia zmian i przechwytywania danych zmian (CDC) z programem SQL Server. Z kolei łącznik usługi Salesforce wybiera kolumnę kursora z listy opcji.
Niektóre źródła lub określone tabele nie obsługują obecnie przyrostowego pobierania danych. Databricks planuje rozszerzyć zakres wsparcia przyrostowego.
Sieć
Istnieje kilka opcji nawiązywania połączenia z aplikacją lub bazą danych SaaS.
- Łączniki aplikacji SaaS docierają do interfejsów API źródła. Są one również automatycznie zgodne z bezserwerowymi kontrolkami ruchu wychodzącego.
- Łączniki dla baz danych w chmurze mogą łączyć się ze źródłem za pośrednictwem usługi Private Link. Alternatywnie, jeśli obszar roboczy ma sieć wirtualną (VNet) lub wirtualną chmurę prywatną (VPC), która jest połączona z siecią wirtualną lub wirtualną chmurą prywatną hostującą bazę danych, możesz wdrożyć wewnątrz niej bramkę pozyskiwania.
- Łączniki dla lokalnych baz danych mogą łączyć się przy użyciu usług, takich jak AWS Direct Connect i Azure ExpressRoute.
Wdrożenie
Potoki pozyskiwania można wdrażać przy użyciu pakietów zasobów usługi Databricks, które umożliwiają najlepsze rozwiązania, takie jak kontrola źródła, przegląd kodu, testowanie i ciągła integracja i ciągłe dostarczanie (CI/CD). Pakiety są zarządzane przy użyciu interfejsu wiersza polecenia usługi Databricks i mogą być uruchamiane w różnych docelowych środowiskach roboczych, takich jak programistyczny, testowy i produkcyjny.
Odzyskiwanie po awarii
Jako w pełni zarządzana usługa Lakeflow Connect ma na celu automatyczne odzyskiwanie po problemach, gdy jest to możliwe. Na przykład gdy łącznik ulegnie awarii, automatycznie ponawia próbę z wycofywaniem wykładniczym.
Istnieje jednak możliwość, że błąd wymaga interwencji (na przykład po wygaśnięciu poświadczeń). W takich przypadkach łącznik próbuje uniknąć braku danych, przechowując ostatnią pozycję kursora. Następnie może kontynuować z tego miejsca przy kolejnym uruchomieniu potoku, jeśli to możliwe.
Nadzorowanie
Lakeflow Connect zapewnia niezawodne alerty i monitorowanie, aby pomóc w utrzymaniu potoków. Obejmuje to dzienniki zdarzeń, dzienniki klastra, metryki kondycji potoku i metryki jakości danych.
Zgodność funkcji
Poniższa tabela zawiera podsumowanie dostępności funkcji dla każdego zarządzanego łącznika pozyskiwania. Aby uzyskać dodatkowe funkcje i ograniczenia, zapoznaj się z dokumentacją konkretnego łącznika.
| Funkcja | Google Analytics | MySQL | NetSuite | Salesforce | Workday | SQL Server | PostgreSQL | ServiceNow | Program SharePoint |
|---|---|---|---|---|---|---|---|---|---|
| Stan | Dostępne ogólnie | Podgląd publiczny | Podgląd publiczny | Dostępne ogólnie | Dostępne ogólnie | Dostępne ogólnie | Podgląd publiczny | Dostępne ogólnie | Beta |
| Tworzenie potoków opartych na interfejsie użytkownika | Nie. |
|
Tak | Tak | Tak | Tak |
|
Tak | Nie. |
| Tworzenie rurociągu opartego na interfejsie API | Tak |
|
Tak | Tak | Tak | Tak |
|
Tak | Tak |
| Pakiety zasobów Databricks | Tak |
|
Tak | Tak | Tak | Tak |
|
Tak | Tak |
| Pozyskiwanie przyrostowe | Tak |
|
Tak | Tak — z tymczasowym wyjątkiem dla pól formuły. Aby uzyskać szczegółowe informacje, zobacz Jak łącznik przyrostowo ściąga aktualizacje?. | Tak | Tak |
|
Tak — w przypadku wyjątków, gdy w tabeli brakuje pola kursora. | Tak |
| Nadzór katalogu Unity | Tak |
|
Tak | Tak | Tak | Tak |
|
Tak | Tak |
| Orkiestracja przy użyciu przepływów pracy usługi Databricks | Tak |
|
Tak | Tak | Tak | Tak |
|
Tak | Tak |
| Typ SCD 2 | Tak |
|
Tak | Tak | Tak | Tak |
|
Tak | Tak |
| Wybór i odznaczenie kolumn oparty na interfejsie API | Tak |
|
Tak | Tak | Tak | Tak |
|
Tak | Tak |
| Automatyczna ewolucja schematu: nowe i usunięte kolumny | Tak |
|
Tak | Tak | Tak | Tak |
|
Tak | Tak |
| Automatyczna ewolucja schematu: zmiany typu danych | Nie. |
|
Nie. | Nie. | Nie. | Nie. |
|
Nie. | Nie. |
| Automatyczna ewolucja schematu: nazwy kolumn | Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). |
Traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). |
Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). | Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). | Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). | Nie — po włączeniu obiektów DDL łącznik może zmienić nazwę kolumny. Gdy obiekty DDL nie są włączone, łącznik traktuje go jako nową kolumnę (nową nazwę) i usuniętą kolumnę (starą nazwę). W obu przypadkach wymaga pełnego odświeżenia. | Nie — po włączeniu obiektów DDL łącznik może zmienić nazwę kolumny. Gdy obiekty DDL nie są włączone, łącznik traktuje go jako nową kolumnę (nową nazwę) i usuniętą kolumnę (starą nazwę). W obu przypadkach wymaga pełnego odświeżenia. | Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). | Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa). |
| Automatyczna ewolucja schematu: nowe tabele | Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. |
W przypadku załadowania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. |
Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. | Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. | N/A | Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. |
W przypadku importowania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. |
Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. | Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych. |
| Maksymalna liczba tabel na jeden potok | 250 | 250 | 200 | 250 | 250 | 250 | 250 | 250 | 250 |
Metody uwierzytelniania
W poniższej tabeli wymieniono obsługiwane metody uwierzytelniania dla każdego zarządzanego łącznika pozyskiwania. Usługa Databricks zaleca używanie protokołu OAuth U2M lub OAuth M2M, jeśli jest to możliwe. Jeśli łącznik obsługuje protokół OAuth U2M lub OAuth M2M, uwierzytelnianie podstawowe i uwierzytelnianie OAuth z ręcznym odświeżaniem tokenu są uznawane za starsze metody uwierzytelniania.
| Connector | OAuth U2M | OAuth M2M | OAuth (token odświeżania ręcznego) | Uwierzytelnianie podstawowe (nazwa użytkownika/hasło) | Uwierzytelnianie podstawowe (klucz JSON konta usługi) | Uwierzytelnianie oparte na tokenach |
|---|---|---|---|---|---|---|
| Konfluencja | Tak | Nie. | Nie. | Nie. | Nie. | Nie. |
| Nieprzetworzone dane usługi Google Analytics | Tak | Nie. | Nie. | Nie. | Tak (tylko interfejs API) | Nie. |
| MySQL | Nie. | Nie. | Nie. | Tak | Nie. | Nie. |
| NetSuite | Nie. | Nie. | Nie. | Nie. | Nie. | Tak |
| Salesforce | Tak | Nie. | Nie. | Nie. | Nie. | Nie. |
| ServiceNow | Tak | Nie. | Tak (tylko interfejs API) | Nie. | Nie. | Nie. |
| Program SharePoint | Tak | Tak (publiczna wersja zapoznawcza) | Tak | Nie. | Nie. | Nie. |
| SQL Server | Tak | Tak | Nie. | Nie. | Tak | Nie. |
| PostgreSQL | Nie. | Nie. | Nie. | Tak | Nie. | Nie. |
| Raporty produktu Workday | Nie. | Nie. | Tak | Tak | Nie. | Nie. |
Zależność od usług zewnętrznych
Usługa Databricks SaaS, baza danych i inne w pełni zarządzane łączniki zależą od dostępności, zgodności i stabilności aplikacji, bazy danych lub usługi zewnętrznej, z którą się łączą. Usługa Databricks nie kontroluje tych usług zewnętrznych, dlatego ma ograniczony (jeśli istnieje) wpływ na zmiany, aktualizacje i konserwację.
Jeśli zmiany, zakłócenia lub okoliczności związane z usługą zewnętrzną utrudniają lub uniemożliwiają działanie łącznika, Databricks może zaprzestać utrzymywania tego łącznika. Databricks podejmie uzasadnione wysiłki, aby powiadomić klientów o zaprzestaniu serwisowania, w tym o aktualizacjach odpowiedniej dokumentacji.