Udostępnij przez


Architektury referencyjne usługi Lakehouse (pobierz)

Ten artykuł zawiera wskazówki dotyczące architektury lakehouse, obejmujące źródła danych, ingestowanie, przekształcanie, wykonywanie zapytań i przetwarzanie, udostępnianie, analiza i przechowywanie.

Każda architektura referencyjna ma plik PDF do pobrania w formacie 11 x 17 (A3).

Chociaż usługa Lakehouse w usłudze Databricks to otwarta platforma, która integruje się z dużym ekosystemem narzędzi partnerskich, architektury referencyjne koncentrują się tylko na usługach platformy Azure i usłudze Databricks Lakehouse. Wyświetlone usługi dostawcy usług w chmurze są wybierane w celu zilustrowania pojęć i nie są wyczerpujące.

architektura referencyjna usługi Azure Databricks lakehouse.

Pobieranie : Architektura referencyjna usługi Azure Databricks Lakehouse

Architektura referencyjna platformy Azure przedstawia następujące usługi specyficzne dla platformy Azure do przyjmowania, przechowywania, obsługi i analizy:

  • Usługi Azure Synapse i SQL Server jako systemy źródłowe dla usługi Lakehouse Federation
  • Usługi Azure IoT Hub i Azure Event Hubs do przetwarzania danych strumieniowych
  • Usługa Azure Data Factory do celów przetwarzania wsadowego
  • Usługa Azure Data Lake Storage Gen 2 (ADLS) jako magazyn obiektów dla danych i zasobów sztucznej inteligencji
  • Usługi Azure SQL DB i Azure Cosmos DB jako operacyjne bazy danych
  • Azure Purview jako katalog przedsiębiorstwa, do którego UC eksportuje schematy i informacje o pochodzeniu.
  • Usługa Power BI jako narzędzie analizy biznesowej
  • Usługa Azure OpenAI może być używana przez serwis modelowania jako zewnętrzny model LLM

Organizacja architektur referencyjnych

Architektura referencyjna jest ustrukturyzowana wzdłuż ścieżek Source, Pozyskiwanie, Transformacja, Zapytanie/Przetwarzanie, Serwowanie, Analizai Przechowywanie:

  • Source

    Istnieją trzy sposoby integrowania danych zewnętrznych z platformą analizy danych:

    • ETL: Platforma umożliwia integrację z systemami, które zapewniają częściowo ustrukturyzowane i nieustrukturyzowane dane (takie jak czujniki, urządzenia IoT, nośniki, pliki i dzienniki), a także dane ustrukturyzowane z relacyjnych baz danych lub aplikacji biznesowych.
    • Federacja Lakehouse: źródła SQL, takie jak relacyjne bazy danych, można zintegrować z Lakehouse i Unity Catalog bez etapu ETL. W takim przypadku dane systemu źródłowego podlegają katalogowi Unity, a zapytania są kierowane do systemu źródłowego.
    • Federacja katalogu: katalogi Hive Metastore można również zintegrować z katalogiem Unity za pośrednictwem federacji katalogu, co umożliwia katalogowi Unity kontrolowanie tabel przechowywanych w Hive Metastore.
  • Ingest

    Pozyskiwanie danych do lakehouse przez wsadowe lub strumieniowe przetwarzanie danych:

    • Databricks Lakeflow Connect oferuje wbudowane konektory do pozyskiwania danych z aplikacji i baz danych dla przedsiębiorstw. Ostateczny potok pozyskiwania danych jest zarządzany przez Unity Catalog i jest wspierany przez bezserwerowe zasoby obliczeniowe i Pipelines.
    • Pliki dostarczane do magazynu w chmurze można ładować bezpośrednio przy użyciu modułu automatycznego ładującego usługi Databricks.
    • W przypadku wsadowego pozyskiwania danych z aplikacji dla przedsiębiorstw do Delta Lake, architektura jeziora danych Databricks Lakehouse opiera się na narzędziach pozyskiwania od partnerów, które posiadają określone adaptery dla tych systemów zapisu.
    • Zdarzenia przesyłania strumieniowego można pozyskiwać bezpośrednio z systemów przesyłania zdarzeń, takich jak Kafka, przy użyciu Databricks Structured Streaming. Źródła przesyłania strumieniowego mogą być czujnikami, IoT lub procesami przechwytywania zmian danych.
  • Storage

  • przekształcanie i wykonywanie zapytań/procesów

    • Usługa Databricks lakehouse korzysta z silników Apache Spark i Photon do wszystkich przekształceń i zapytań.

    • Potoki to struktura deklaratywna umożliwiająca uproszczenie i optymalizowanie niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych.

    • Obsługiwane przez platformy Apache Spark i Photon platforma analizy danych usługi Databricks obsługuje oba typy obciążeń: zapytania SQL za pośrednictwem magazynów SQL oraz obciążenia SQL, Python i Scala za pośrednictwem klastrów obszarów roboczych.

    • W przypadku nauki o danych (modelowanie uczenia maszynowego i generatywna sztuczna inteligencja) platforma Databricks AI i Machine Learning udostępnia wyspecjalizowane środowiska uruchomieniowe uczenia maszynowego dla AutoML i kodowania zadań uczenia maszynowego. Wszystkie przepływy pracy nauki o danych i MLOps są najlepiej obsługiwane przez platformę MLflow.

  • Serving

    • W przypadku magazynowania danych (DWH) i przypadków użycia BI platforma Databricks lakehouse udostępnia usługę Databricks SQL, magazyn danych obsługiwany przez magazyny SQL i bezserwerowe magazyny SQL.

    • W przypadku uczenia maszynowego Mosaic AI Model Serving to skalowalna, działająca w czasie rzeczywistym funkcja serwowania modelu klasy korporacyjnej uruchamiana w płaszczyźnie kontrolnej Databricks. Mozaika AI Gateway to rozwiązanie usługi Databricks do zarządzania dostępem i monitorowania do obsługiwanych modeli generacyjnych sztucznej inteligencji oraz skojarzonych z nimi modeli obsługujących punkty końcowe.

    • Operacyjne bazy danych:

      • Lakebase to baza danych przetwarzania transakcji online (OLTP) oparta na bazie danych Postgres i w pełni zintegrowana z platformą analizy danych usługi Databricks. Umożliwia ona tworzenie baz danych OLTP w usłudze Databricks i integrowanie obciążeń OLTP z usługą Lakehouse.
      • Systemy zewnętrzne, takie jak operacyjne bazy danych, mogą służyć do przechowywania i dostarczania końcowych produktów danych do aplikacji użytkowników.
  • Collaboration:

    • Partnerzy biznesowi uzyskują bezpieczny dostęp do potrzebnych danych za pośrednictwem Delta Sharing.

    • W oparciu o Delta Sharing, Databricks Marketplace jest otwartym forum do wymiany produktów danych.

    • Czyste pokoje są bezpieczne i chronią prywatność środowisk, w których wielu użytkowników może współpracować ze sobą na poufnych danych przedsiębiorstwa bez bezpośredniego dostępu do danych.

  • Analysis

    • Końcowe aplikacje biznesowe znajdują się w tym torze pływania. Przykłady obejmują klientów niestandardowych, takich jak aplikacje sztucznej inteligencji połączone z usługą Mosaic AI Model Serving na potrzeby wnioskowania w czasie rzeczywistym lub aplikacji, które uzyskują dostęp do danych wypychanych z usługi Lakehouse do operacyjnej bazy danych.

    • W przypadku przypadków użycia analizy biznesowej analitycy zazwyczaj używają narzędzi analizy biznesowej do uzyskiwania dostępu do magazynu danych. Deweloperzy SQL mogą dodatkowo używać Edytora SQL Databricks (nie pokazany na diagramie) do zapytań i dashboardów.

    • Platforma analizy danych oferuje również pulpity nawigacyjne umożliwiające tworzenie wizualizacji danych i udostępnianie szczegółowych informacji.

  • Integrate

    • Platforma Databricks integruje się ze standardowymi dostawcami tożsamości na potrzeby zarządzania użytkownikami i logowania jednokrotnego .
    • Zewnętrzne usługi sztucznej inteligencji, takie jak OpenAI, LangChain lub HuggingFace mogą być używane bezpośrednio z poziomu platformy analizy usługi Databricks.

    • Zewnętrzni orkiestratorzy mogą korzystać z kompleksowych interfejsu API REST lub dedykowanych łączników do zewnętrznych narzędzi orkiestracji, takich jak Apache Airflow.

    • Unity Catalog jest używany do zarządzania wszystkimi danymi i zarządzaniem AI w Platformie Inteligencji Databricks i może integrować inne bazy danych ze swoim zarządzaniem za pośrednictwem Lakehouse Federation.

      Ponadto Unity Catalog można zintegrować z innymi katalogami przedsiębiorstwa, np. Purview. Aby uzyskać szczegółowe informacje, skontaktuj się z dostawcą katalogu przedsiębiorstwa.

Typowe możliwości dla wszystkich obciążeń

Ponadto usługa Databricks Lakehouse oferuje możliwości zarządzania, które obsługują wszystkie obciążenia:

  • Zarządzanie danymi i sztuczną inteligencją

    Centralnym systemem zarządzania danymi i sztuczną inteligencją w platformie Databricks Data Intelligence Platform jest Unity Catalog. Katalog Unity zapewnia jedno miejsce do zarządzania zasadami dostępu do danych, które mają zastosowanie we wszystkich obszarach roboczych, i obsługuje wszystkie zasoby utworzone lub używane w Lakehouse, takie jak tabele, woluminy, features (sklep funkcji) i modele (rejestr modeli). Katalog Unity może również służyć do przechwytywania linii pochodzenia danych środowiska uruchomieniowego dla zapytań uruchamianych w usłudze Databricks.

    Monitorowanie jakości danych usługi Databricks umożliwia monitorowanie jakości danych wszystkich tabel na koncie. Wykrywa anomalie we wszystkich tabelach i udostępnia pełny profil danych dla każdej tabeli.

    Aby można było zaobserwować, tabele systemowe to magazyn analityczny hostowany w usłudze Databricks danych operacyjnych twojego konta. Tabele systemowe mogą służyć do obserwacji historycznej na koncie.

  • Aparat analizy danych

    Platforma Inteligencji Danych Databricks umożliwia całej organizacji korzystanie z danych i sztucznej inteligencji, łącząc generatywną SI z zaletami unifikacji Lakehouse w celu zrozumienia unikalnej semantyki danych. Zobacz Funkcje pomocnicze sztucznej inteligencji usługi Databricks.

    Asystent usługi Databricks jest dostępny w notesach usługi Databricks, edytorze SQL, edytorze plików i innych miejscach jako asystent sztucznej inteligencji obsługującym kontekst dla użytkowników.

  • Automatyzacja & Orkiestracja

    Zadania Lakeflow organizują przetwarzanie danych, uczenie maszynowe i potoki analityczne na platformie Databricks Data Intelligence. Potoki deklaratywne platformy Spark lakeflow umożliwiają tworzenie niezawodnych i konserwowalnych potoków ETL przy użyciu składni deklaratywnej. Platforma obsługuje również CI/CD oraz MLOps

Ogólne przypadki użycia platformy analizy danych na platformie Azure

Wbudowane pozyskiwanie danych z aplikacji SaaS i baz danych za pomocą Lakeflow Connect.

Przetwarzanie danych z wykorzystaniem LFC na platformie Azure Databricks.

Pobierz: Architektura referencyjna programu Lakeflow Connect dla usługi Azure Databricks.

Usługa Databricks Lakeflow Connect oferuje wbudowane łączniki umożliwiające pozyskiwanie danych z aplikacji i baz danych dla przedsiębiorstw. Powstający potok pozyskiwania jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w Lakeflow.

Usługa Lakeflow Connect wykorzystuje wydajne operacje odczytu przyrostowego i zapisu w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, podczas gdy dane pozostają świeże do użycia podrzędnego.

Pozyskiwanie wsadowe i ETL

architektura referencyjna dla procesu ETL wsadowego w usłudze Azure Databricks.

Pobierz: Architektura referencyjna ETL w trybie wsadowym dla platformy Azure Databricks

Narzędzia do pozyskiwania używają adapterów specyficznych dla źródła do odczytywania danych ze źródła, a następnie przechowywania ich w magazynie w chmurze, z którego Auto Loader może je odczytać, lub bezpośrednio wywołać Databricks (na przykład z narzędziami do pozyskiwania partnerów zintegrowanymi z lakehouse Databricks). Aby załadować dane, silnik ETL i przetwarzania Databricks uruchamia zapytania za pośrednictwem potoków. Organizowanie pojedynczych lub wielozadajowych zadań przy użyciu Lakeflow Jobs i zarządzanie nimi poprzez Unity Catalog (kontrola dostępu, audyt, śledzenie pochodzenia itp.). Aby zapewnić dostęp do określonych złotych tabel dla systemów operacyjnych o niskich opóźnieniach, wyeksportuj tabele do operacyjnej bazy danych, takiej jak RDBMS lub magazynu typu klucz-wartość na końcu potoku ETL.

Przesyłanie strumieniowe i przechwytywanie zmian danych (CDC)

Architekturę strukturalnego przesyłania strumieniowego w usłudze Azure Databricks.

Pobierz: Architektura strukturalnego przesyłania strumieniowego Spark dla usługi Azure Databricks

Silnik ETL usługi Databricks używa Spark Structured Streaming do odczytywania z kolejek zdarzeń, takich jak Apache Kafka lub Azure Event Hub. Kroki podrzędne są zgodne z podejściem powyższego przypadku użycia usługi Batch.

Przechwytywanie danych zmian w czasie rzeczywistym (CDC) zwykle przechowuje wyodrębnione zdarzenia w kolejce zdarzeń. W tym miejscu przypadek użycia jest zgodny z przypadkiem użycia przesyłania strumieniowego.

Jeśli CDC jest wykonywane wsadowo, z wyodrębnionymi rekordami najpierw przechowywanymi w magazynie w chmurze, Databricks Autoloader może je odczytać, a przypadek użycia odpowiada Batch ETL.

Uczenie maszynowe i sztuczna inteligencja (tradycyjna)

architektura referencyjna uczenia maszynowego i sztucznej inteligencji dla usługi Azure Databricks.

Pobieranie: architektura referencyjna uczenia maszynowego i sztucznej inteligencji dla usługi Azure Databricks

W przypadku uczenia maszynowego Platforma Inteligencji Danych Databricks udostępnia Mosaic AI, które jest wyposażone w najnowocześniejsze biblioteki uczenia maszynowego i uczenia głębokiego. Zapewnia takie możliwości, jak Feature Store i Model Registry (oba zintegrowane z katalogiem Unity), funkcje niskokodowe za pomocą AutoML oraz integrację MLflow z cyklem życia nauki o danych.

Katalog Unity zarządza wszystkimi elementami zawartości związanymi z nauką o danych (tabelami, funkcjami i modelami), a naukowcy danych mogą używać zadań Lakeflow Jobs do koordynowania swoich zadań.

Aby wdrożyć modele w sposób skalowalny i na poziomie korporacyjnym, użyj możliwości MLOps, aby opublikować modele w usłudze modelu.

Aplikacje agenta sztucznej inteligencji (Gen AI)

architektura referencyjna aplikacji Gen AI dla usługi Azure Databricks.

Pobierz Referencyjna architektura aplikacji generatywnej sztucznej inteligencji dla usługi Azure Databricks

Aby wdrożyć modele w sposób skalowalny i na poziomie korporacyjnym, wykorzystaj możliwości MLOps do publikacji modeli w ramach serwisu modelowego.

Analiza Business Intelligence i SQL

Architektura referencyjna analityki BI i SQL w Azure Databricks.

Pobierz: Architektura referencyjna analityki biznesowej i SQL dla Azure Databricks

W przypadku przypadków użycia analizy biznesowej analitycy biznesowi mogą używać pulpitów nawigacyjnych, edytora SQL usługi Databricks lub narzędzi analizy biznesowej , takich jak Tableau lub Power BI. We wszystkich przypadkach silnik to Databricks SQL (bezserwerowy lub nieserwerowy), a Unity Catalog zapewnia odkrywanie, eksplorację danych i kontrolę dostępu.

Aplikacje biznesowe

Aplikacje biznesowe dla usługi Databricks dla usługi Azure Databricks.

Pobierz: Aplikacje biznesowe dla Databricks dla Azure Databricks

Usługa Databricks Apps umożliwia deweloperom tworzenie i wdrażanie bezpiecznych danych i aplikacji sztucznej inteligencji bezpośrednio na platformie Databricks, co eliminuje potrzebę oddzielnej infrastruktury. Aplikacje są hostowane na platformie bezserwerowej usługi Databricks i integrują się z kluczowymi usługami platformy. Użyj usługi Lakebase , jeśli aplikacja potrzebuje danych OLTP zsynchronizowanych z usługi Lakehouse.

Federacja Lakehouse

referencyjna architektura federacyjna Lakehouse dla usługi Azure Databricks.

Pobierz: Referencyjna architektura federacyjna dla Azure Databricks Lakehouse

Usługa Lakehouse Federation umożliwia integrację zewnętrznych baz danych SQL (takich jak MySQL, Postgres, SQL Server lub Azure Synapse) z usługą Databricks.

Wszystkie obciążenia (AI, DWH i BI) mogą korzystać z tego bez konieczności przenoszenia danych do magazynu obiektów. Wykaz źródeł zewnętrznych jest mapowany do katalogu Unity, a szczegółową kontrolę dostępu można zastosować w celu kontrolowania dostępu za pośrednictwem platformy Databricks.

Federacja katalogu

Architektura referencyjna zintegrowanego katalogu dla usługi Azure Databricks.

Pobierz: referencyjna architektura federacji katalogu dla Azure Databricks

Federacja katalogu umożliwia integrację zewnętrznych magazynów metadanych Hive (takich jak MySQL, Postgres, SQL Server lub Azure Synapse) z usługą Databricks.

Wszystkie obciążenia (AI, DWH i BI) mogą korzystać z tego bez konieczności przenoszenia danych do magazynu obiektów. Wykaz zewnętrznych źródeł jest dodawany do Unity Catalog, w którym jest stosowana szczegółowa kontrola dostępu za pośrednictwem platformy Databricks.

Udostępnianie danych za pomocą narzędzi innych firm

Architektura referencyjna udostępniania danych przedsiębiorstwa dla usługi Azure Databricks.

Pobieranie: udostępnianie danych za pomocą architektury referencyjnej narzędzi innych firm dla usługi Azure Databricks

Udostępnianie danych klasy korporacyjnej innym firmom jest udostępniane przez usługę Delta Sharing. Umożliwia ona bezpośredni dostęp do danych w magazynie obiektów zabezpieczonym za pomocą Unity Catalog. Ta funkcja jest również używana w witrynie Databricks Marketplace — otwartym forum do wymiany produktów danych.

Korzystanie z udostępnionych danych z usługi Databricks

Korzystanie z udostępnionych danych z usługi Databricks dla usługi Azure Databricks.

Pobieranie: korzystanie z udostępnionych danych z architektury referencyjnej usługi Databricks dla usługi Azure Databricks

Protokół Delta Sharing Databricks-to-Databricks umożliwia użytkownikom bezpieczne udostępnianie danych dowolnym użytkownikom Databricks, niezależnie od konta lub hosta chmury, o ile użytkownik ma dostęp do obszaru roboczego włączonego dla Unity Catalog.