Łączniki zarządzane w programie Lakeflow Connect

Ważne

Łączniki zarządzane w programie Lakeflow Connect znajdują się w różnych stanach wydania.

Ten artykuł zawiera omówienie łączników zarządzanych w usłudze Databricks Lakeflow Connect na potrzeby pozyskiwania danych z aplikacji SaaS i baz danych. Potok danych wejściowych jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w ramach usługi Lakeflow. Łączniki zarządzane wykorzystują wydajne operacje odczytu i zapisu przyrostowego w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, a dane pozostają świeże do użycia podrzędnego.

Składniki łącznika SaaS

Łącznik SaaS ma następujące składniki:

Składnik	Opis
Połączenie	Zabezpieczony element Unity Catalog, który przechowuje szczegóły uwierzytelniania dla aplikacji.
Potok pozyskiwania	Potok danych, który kopiuje dane z aplikacji do tabel docelowych. Potok przetwarzania danych działa w środowisku bezserwerowym.
Tabele docelowe	Tabele, w które strumień danych zapisuje informacje. Są to tabele przesyłania strumieniowego, czyli tabele Delta z dodatkową obsługą przetwarzania danych przyrostowych.

Diagram składników łącznika SaaS

Składniki łącznika bazy danych

Łącznik bazy danych ma następujące składniki:

Składnik	Opis
Połączenie	Obiekt zabezpieczalny katalogu Unity, który przechowuje detale uwierzytelniania bazy danych.
Brama pozyskiwania	Przepływ danych, który wyodrębnia migawki, dzienniki zmian i metadane ze źródłowej bazy danych. Brama działa w klasycznym środowisku obliczeniowym i działa w sposób ciągły w celu przechwytywania zmian, zanim dzienniki zmian mogą zostać skrócone w źródle.
Magazyn tymczasowy	Wolumen Unity Catalog, który tymczasowo przechowuje wyodrębnione dane przed ich użyciem w tabeli docelowej. Dzięki temu można uruchamiać potok pozyskiwania według dowolnego harmonogramu, nawet gdy brama nieustannie przechwytuje zmiany. Pomaga również w recuperacji po awarii. Wolumin magazynu przejściowego jest tworzony automatycznie podczas wdrażania bramy i można dostosować katalog i schemat, w którym się znajduje. Dane są automatycznie usuwane z obszaru tymczasowego po upływie 30 dni.
Potok pozyskiwania	Przepływ danych, który przenosi dane z magazynu przejściowego do tabel docelowych. Pipeline działa na bezserwerowych obliczeniach.
Tabele docelowe	Tabele, w które strumień danych zapisuje informacje. Są to tabele przesyłania strumieniowego, czyli tabele Delta z dodatkową obsługą przetwarzania danych przyrostowych.

Diagram składników łącznika bazy danych

Orkiestracja

Potok pozyskiwania można uruchomić w jednym lub kilku niestandardowych harmonogramach. Dla każdego harmonogramu dodawanego do potoku, program Lakeflow Connect automatycznie tworzy zadanie dla tego harmonogramu. Potok przetwarzania jest zadaniem w ramach pracy. Opcjonalnie możesz dodać więcej zadań do zadania.

Diagram aranżacji potoku dla łączników SaaS

W przypadku łączników bazy danych brama pozyskiwania jest uruchamiana we własnym zadaniu jako zadanie ciągłe.

Diagram orkiestracji pipeline'u dla łączników bazy danych

Pozyskiwanie przyrostowe

Lakeflow Connect używa pozyskiwania przyrostowego w celu zwiększenia wydajności przepływu. Podczas pierwszego uruchomienia ścieżki, pobierane są wszystkie wybrane dane ze źródła. Równolegle śledzi zmiany w danych źródłowych. W każdorazowym uruchomieniu potoku używa się śledzenia zmian, aby pobierać tylko te dane, które zmieniły się od poprzedniego uruchomienia, o ile to możliwe.

Dokładne podejście zależy od tego, co jest dostępne w źródle danych. Można na przykład użyć funkcji śledzenia zmian i przechwytywania danych zmian (CDC) z programem SQL Server. Z kolei łącznik usługi Salesforce wybiera kolumnę kursora z listy opcji.

Niektóre źródła lub określone tabele nie obsługują obecnie przyrostowego pobierania danych. Databricks planuje rozszerzyć zakres wsparcia przyrostowego.

Sieć

Istnieje kilka opcji nawiązywania połączenia z aplikacją lub bazą danych SaaS.

Łączniki aplikacji SaaS docierają do interfejsów API źródła. Są one również automatycznie zgodne z bezserwerowymi kontrolkami ruchu wychodzącego.
Łączniki dla baz danych w chmurze mogą łączyć się ze źródłem za pośrednictwem usługi Private Link. Alternatywnie, jeśli obszar roboczy ma sieć wirtualną (VNet) lub wirtualną chmurę prywatną (VPC), która jest połączona z siecią wirtualną lub wirtualną chmurą prywatną hostującą bazę danych, możesz wdrożyć wewnątrz niej bramkę pozyskiwania.
Łączniki dla lokalnych baz danych mogą łączyć się przy użyciu usług, takich jak AWS Direct Connect i Azure ExpressRoute.

Wdrożenie

Potoki pozyskiwania można wdrażać przy użyciu pakietów zasobów usługi Databricks, które umożliwiają najlepsze rozwiązania, takie jak kontrola źródła, przegląd kodu, testowanie i ciągła integracja i ciągłe dostarczanie (CI/CD). Pakiety są zarządzane przy użyciu interfejsu wiersza polecenia usługi Databricks i mogą być uruchamiane w różnych docelowych środowiskach roboczych, takich jak programistyczny, testowy i produkcyjny.

Odzyskiwanie po awarii

Jako w pełni zarządzana usługa Lakeflow Connect ma na celu automatyczne odzyskiwanie po problemach, gdy jest to możliwe. Na przykład gdy łącznik ulegnie awarii, automatycznie ponawia próbę z wycofywaniem wykładniczym.

Istnieje jednak możliwość, że błąd wymaga interwencji (na przykład po wygaśnięciu poświadczeń). W takich przypadkach łącznik próbuje uniknąć braku danych, przechowując ostatnią pozycję kursora. Następnie może kontynuować z tego miejsca przy kolejnym uruchomieniu potoku, jeśli to możliwe.

Nadzorowanie

Lakeflow Connect zapewnia niezawodne alerty i monitorowanie, aby pomóc w utrzymaniu potoków. Obejmuje to dzienniki zdarzeń, dzienniki klastra, metryki kondycji potoku i metryki jakości danych.

Zgodność funkcji

Poniższa tabela zawiera podsumowanie dostępności funkcji dla każdego zarządzanego łącznika pozyskiwania. Aby uzyskać dodatkowe funkcje i ograniczenia, zapoznaj się z dokumentacją konkretnego łącznika.

Funkcja	Google Analytics	MySQL	NetSuite	Salesforce	Workday	SQL Server	PostgreSQL	ServiceNow	Program SharePoint
Stan	Dostępne ogólnie	Podgląd publiczny	Podgląd publiczny	Dostępne ogólnie	Dostępne ogólnie	Dostępne ogólnie	Podgląd publiczny	Dostępne ogólnie	Beta
Tworzenie potoków opartych na interfejsie użytkownika	Nie.		Tak	Tak	Tak	Tak		Tak	Nie.
Tworzenie rurociągu opartego na interfejsie API	Tak		Tak	Tak	Tak	Tak		Tak	Tak
Pakiety zasobów Databricks	Tak		Tak	Tak	Tak	Tak		Tak	Tak
Pozyskiwanie przyrostowe	Tak		Tak	Tak — z tymczasowym wyjątkiem dla pól formuły. Aby uzyskać szczegółowe informacje, zobacz Jak łącznik przyrostowo ściąga aktualizacje?.	Tak	Tak		Tak — w przypadku wyjątków, gdy w tabeli brakuje pola kursora.	Tak
Nadzór katalogu Unity	Tak		Tak	Tak	Tak	Tak		Tak	Tak
Orkiestracja przy użyciu przepływów pracy usługi Databricks	Tak		Tak	Tak	Tak	Tak		Tak	Tak
Typ SCD 2	Tak		Tak	Tak	Tak	Tak		Tak	Tak
Wybór i odznaczenie kolumn oparty na interfejsie API	Tak		Tak	Tak	Tak	Tak		Tak	Tak
Automatyczna ewolucja schematu: nowe i usunięte kolumny	Tak		Tak	Tak	Tak	Tak		Tak	Tak
Automatyczna ewolucja schematu: zmiany typu danych	Nie.		Nie.	Nie.	Nie.	Nie.		Nie.	Nie.
Automatyczna ewolucja schematu: nazwy kolumn	Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).	Traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).	Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).	Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).	Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).	Nie — po włączeniu obiektów DDL łącznik może zmienić nazwę kolumny. Gdy obiekty DDL nie są włączone, łącznik traktuje go jako nową kolumnę (nową nazwę) i usuniętą kolumnę (starą nazwę). W obu przypadkach wymaga pełnego odświeżenia.	Nie — po włączeniu obiektów DDL łącznik może zmienić nazwę kolumny. Gdy obiekty DDL nie są włączone, łącznik traktuje go jako nową kolumnę (nową nazwę) i usuniętą kolumnę (starą nazwę). W obu przypadkach wymaga pełnego odświeżenia.	Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).	Tak — traktowana jako nowa kolumna (nowa nazwa) i usunięta kolumna (stara nazwa).
Automatyczna ewolucja schematu: nowe tabele	Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.	W przypadku załadowania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.	Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.	Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.	N/A	Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.	W przypadku importowania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.	Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.	Tak — w przypadku przetwarzania całego schematu. Zobacz ograniczenia dotyczące liczby tabel na przepływ danych.
Maksymalna liczba tabel na jeden potok	250	250	200	250	250	250	250	250	250

Metody uwierzytelniania

W poniższej tabeli wymieniono obsługiwane metody uwierzytelniania dla każdego zarządzanego łącznika pozyskiwania. Usługa Databricks zaleca używanie protokołu OAuth U2M lub OAuth M2M, jeśli jest to możliwe. Jeśli łącznik obsługuje protokół OAuth U2M lub OAuth M2M, uwierzytelnianie podstawowe i uwierzytelnianie OAuth z ręcznym odświeżaniem tokenu są uznawane za starsze metody uwierzytelniania.

Connector	OAuth U2M	OAuth M2M	OAuth (token odświeżania ręcznego)	Uwierzytelnianie podstawowe (nazwa użytkownika/hasło)	Uwierzytelnianie podstawowe (klucz JSON konta usługi)	Uwierzytelnianie oparte na tokenach
Konfluencja	Tak	Nie.	Nie.	Nie.	Nie.	Nie.
Nieprzetworzone dane usługi Google Analytics	Tak	Nie.	Nie.	Nie.	Tak (tylko interfejs API)	Nie.
MySQL	Nie.	Nie.	Nie.	Tak	Nie.	Nie.
NetSuite	Nie.	Nie.	Nie.	Nie.	Nie.	Tak
Salesforce	Tak	Nie.	Nie.	Nie.	Nie.	Nie.
ServiceNow	Tak	Nie.	Tak (tylko interfejs API)	Nie.	Nie.	Nie.
Program SharePoint	Tak	Tak (publiczna wersja zapoznawcza)	Tak	Nie.	Nie.	Nie.
SQL Server	Tak	Tak	Nie.	Nie.	Tak	Nie.
PostgreSQL	Nie.	Nie.	Nie.	Tak	Nie.	Nie.
Raporty produktu Workday	Nie.	Nie.	Tak	Tak	Nie.	Nie.

Zależność od usług zewnętrznych

Usługa Databricks SaaS, baza danych i inne w pełni zarządzane łączniki zależą od dostępności, zgodności i stabilności aplikacji, bazy danych lub usługi zewnętrznej, z którą się łączą. Usługa Databricks nie kontroluje tych usług zewnętrznych, dlatego ma ograniczony (jeśli istnieje) wpływ na zmiany, aktualizacje i konserwację.

Jeśli zmiany, zakłócenia lub okoliczności związane z usługą zewnętrzną utrudniają lub uniemożliwiają działanie łącznika, Databricks może zaprzestać utrzymywania tego łącznika. Databricks podejmie uzasadnione wysiłki, aby powiadomić klientów o zaprzestaniu serwisowania, w tym o aktualizacjach odpowiedniej dokumentacji.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-12-20