Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Usługa Lakeflow Connect oferuje proste i wydajne łączniki do pozyskiwania danych z plików lokalnych, popularnych aplikacji dla przedsiębiorstw, baz danych, magazynu w chmurze, magistrali komunikatów i innych. Na tej stronie opisano niektóre sposoby, w jakie program Lakeflow Connect może poprawić wydajność funkcji ETL. Obejmuje również typowe przypadki użycia i zakres obsługiwanych narzędzi do przetwarzania danych, od w pełni zarządzanych połączeń do struktur w pełni konfigurowalnych.
Elastyczne modele usług
Program Lakeflow Connect oferuje szeroką gamę łączników dla aplikacji dla przedsiębiorstw, magazynu w chmurze, baz danych, magistrali komunikatów i nie tylko. Zapewnia również elastyczność wyboru między następującymi elementami:
| Opcja | Opis |
|---|---|
| W pełni zarządzana usługa | Gotowe łączniki, które demokratyzują dostęp do danych za pomocą prostych interfejsów użytkownika i zaawansowanych interfejsów API. Dzięki temu można szybko tworzyć niezawodne potoki pozyskiwania przy jednoczesnym zminimalizowaniu długoterminowych kosztów konserwacji. |
| Potok niestandardowy | Jeśli potrzebujesz większej elastyczności, możesz użyć deklaratywnych potoków Lakeflow Spark lub Strukturalnego Przesyłania Strumieniowego. Ostatecznie ta wszechstronność umożliwia usłudze Lakeflow Connect spełnienie konkretnych potrzeb organizacji. |
Integracja z kluczowymi narzędziami Databricks
Usługa Lakeflow Connect używa podstawowych funkcji usługi Databricks w celu zapewnienia kompleksowego zarządzania danymi. Na przykład oferuje zarządzanie za pomocą Unity Catalog, orkiestrację przy użyciu Lakeflow Jobs i holistyczne monitorowanie w twoich potokach. Ułatwia to organizacji zarządzanie zabezpieczeniami danych, jakością i kosztami przy jednoczesnym ujednoliceniu procesów pozyskiwania za pomocą innych narzędzi do inżynierii danych. Program Lakeflow Connect jest oparty na otwartej platformie analizy danych z pełną elastycznością w celu uwzględnienia preferowanych narzędzi innych firm. Zapewnia to dostosowane rozwiązanie, które jest zgodne z istniejącą infrastrukturą i przyszłymi strategiami danych.
Szybkie, skalowalne pozyskiwanie
Program Lakeflow Connect używa przyrostowych operacji odczytu i zapisu w celu wydajnego przetwarzania danych. W połączeniu z przekształceniami przyrostowymi w dalszej części procesu może to znacznie poprawić wydajność ETL.
Typowe przypadki użycia
Klienci pozyskują dane, aby rozwiązać najbardziej trudne problemy organizacji. Przykładowe przypadki użycia obejmują następujące elementy:
| Przypadek użycia | Opis |
|---|---|
| Klient 360 | Mierzenie wydajności kampanii i ocenianie leadów klientów |
| Zarządzanie portfelem | Maksymalizowanie zwrotu z inwestycji za pomocą modeli historycznych i prognozowania |
| Analiza konsumentów | Personalizowanie środowisk zakupów klientów |
| Scentralizowane zasoby ludzkie | Wspieranie pracowników organizacji |
| Cyfrowe bliźniaki | Zwiększenie wydajności produkcyjnej |
| Chatboty RAG | Tworzenie czatbotów w celu ułatwienia użytkownikom zrozumienia zasad, produktów i nie tylko |
Warstwy stosu ETL
Niektóre łączniki działają na jednym poziomie stosu ETL. Na przykład usługa Databricks oferuje w pełni zarządzane łączniki dla aplikacji dla przedsiębiorstw, takich jak Salesforce i bazy danych, takie jak SQL Server. Inne łączniki działają w wielu warstwach stosu ETL. Można na przykład użyć standardowych łączników w strumieniowaniu o strukturze w celu pełnego dostosowania lub deklaratywnych potoków Spark w Lakeflow dla bardziej zarządzanego doświadczenia. Możesz również wybrać poziom dostosowywania danych przesyłanych strumieniowo z platformy Apache Kafka, Amazon Kinesis, Google Pub/Sub i Apache Pulsar.
Usługa Databricks zaleca rozpoczęcie od najbardziej zarządzanej warstwy. Jeśli nie spełnia Twoich wymagań (na przykład, jeśli nie obsługuje Twojego źródła danych), przejdź do następnej warstwy. Usługa Databricks planuje rozszerzenie obsługi większej liczby łączników we wszystkich trzech warstwach.
W poniższej tabeli opisano trzy warstwy produktów integracji, uporządkowane od najbardziej dostosowywalnych do najbardziej zarządzanych.
| Warstwa | Opis |
|---|---|
| Przesyłanie strumieniowe ze strukturą | Przesyłanie strumieniowe o strukturze to API do przetwarzania strumieniowego przyrostowego niemal w czasie rzeczywistym. Zapewnia ona silną wydajność, skalowalność i odporność na uszkodzenia. |
| Potoki deklaratywne platformy Spark w usłudze Lakeflow | Potoki deklaratywne Lakeflow Spark Declarative Pipelines są oparte na Structured Streaming, oferując deklaratywne ramy do tworzenia potoków danych. Przekształcenia do wykonania na danych można zdefiniować, a usługa Lakeflow Spark Deklaratative Pipelines zarządza aranżacją, monitorowaniem, jakością danych, błędami i nie tylko. W związku z tym oferuje większą automatyzację i mniejsze koszty ogólne niż Structured Streaming. |
| W pełni zarządzane łączniki | W pełni zarządzane łączniki są oparte na deklaratywnych potokach platformy Lakeflow Spark, oferując jeszcze większą automatyzację najpopularniejszych źródeł danych. Rozszerzają funkcje potoków deklaratywnych platformy Lakeflow, aby obejmowały również uwierzytelnianie specyficzne dla źródła, usługę CDC, obsługę przypadków brzegowych, długoterminową konserwację interfejsu API, automatyczne ponawianie prób, automatyczną ewolucję schematu itd. W związku z tym oferują jeszcze większą automatyzację dla wszystkich obsługiwanych źródeł danych. |
Łączniki zarządzane
Możesz użyć w pełni zarządzanych łączników do pozyskiwania danych z aplikacji i baz danych przedsiębiorstw.
Obsługiwane łączniki obejmują:
Obsługiwane interfejsy obejmują:
- Interfejs użytkownika usługi Databricks
- Pakiety zasobów Databricks
- Interfejsy API usługi Databricks
- Zestawy SDK usługi Databricks
- Interfejs wiersza polecenia usługi Databricks
Łączniki standardowe
Oprócz zarządzanych łączników usługa Databricks oferuje dostosowywalne łączniki dla magazynu obiektów w chmurze i magistrali komunikatów. Zobacz Łączniki standardowe w programie Lakeflow Connect.
Przekazywanie i pobieranie plików
Można wczytywać pliki znajdujące się w sieci lokalnej, pliki przekazane do woluminu lub pliki pobrane z lokalizacji internetowej. Zobacz Pliki.
partnerzy ds. przetwarzania danych
Wiele narzędzi firm trzecich obsługuje wsadowe lub strumieniowe pozyskiwanie danych do usługi Databricks. Usługa Databricks weryfikuje różne integracje innych firm, chociaż kroki konfigurowania dostępu do systemów źródłowych i pozyskiwania danych różnią się w zależności od narzędzia. Aby uzyskać listę zweryfikowanych narzędzi, sprawdź partnerów ds. integracji. Niektórzy partnerzy technologiczni są również polecani w narzędziu Databricks Partner Connect, który ma interfejs użytkownika, który upraszcza łączenie narzędzi innych firm z danymi usługi Lakehouse.
wprowadzanie DIY
Usługa Databricks udostępnia ogólną platformę obliczeniową. W związku z tym możesz utworzyć własne łączniki pozyskiwania przy użyciu dowolnego języka programowania obsługiwanego przez usługę Databricks, takiego jak Python lub Java. Można również importować i używać popularnych bibliotek łączników typu open source, takich jak narzędzie do ładowania danych, airbyte i debezium.
alternatywy przyjmowania
Databricks zaleca ingestowanie dla większości przypadków użycia, ponieważ skaluje się, aby obsłużyć duże ilości danych, zapytania o niskie opóźnienia i limity interfejsu API innych firm. Przenoszenie danych kopiuje dane z systemów źródłowych do usługi Azure Databricks, co powoduje zduplikowanie danych, które z czasem mogą stać się nieaktualne. Jeśli nie chcesz kopiować danych, możesz użyć następujących narzędzi:
| Narzędzie | Opis |
|---|---|
| Federacja Lakehouse | Umożliwia wykonywanie zapytań względem zewnętrznych źródeł danych bez przenoszenia danych. |
| Udostępnianie Delta | Umożliwia bezpieczne udostępnianie danych między platformami, chmurami i regionami. |