Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Ten artykuł zawiera wskazówki dotyczące architektury lakehouse, obejmujące źródła danych, ingestowanie, przekształcanie, wykonywanie zapytań i przetwarzanie, udostępnianie, analiza i przechowywanie.
Każda architektura referencyjna ma plik PDF do pobrania w formacie 11 x 17 (A3).
Chociaż usługa Lakehouse w usłudze Databricks to otwarta platforma, która integruje się z dużym ekosystemem narzędzi partnerskich, architektury referencyjne koncentrują się tylko na usługach platformy Azure i usłudze Databricks Lakehouse. Wyświetlone usługi dostawcy usług w chmurze są wybierane w celu zilustrowania pojęć i nie są wyczerpujące.
Pobieranie : Architektura referencyjna usługi Azure Databricks Lakehouse
Architektura referencyjna platformy Azure przedstawia następujące usługi specyficzne dla platformy Azure do przyjmowania, przechowywania, obsługi i analizy:
- Usługi Azure Synapse i SQL Server jako systemy źródłowe dla usługi Lakehouse Federation
- Usługi Azure IoT Hub i Azure Event Hubs do przetwarzania danych strumieniowych
- Usługa Azure Data Factory do celów przetwarzania wsadowego
- Usługa Azure Data Lake Storage Gen 2 (ADLS) jako magazyn obiektów dla danych i zasobów sztucznej inteligencji
- Usługi Azure SQL DB i Azure Cosmos DB jako operacyjne bazy danych
- Azure Purview jako katalog przedsiębiorstwa, do którego UC eksportuje schematy i informacje o pochodzeniu.
- Usługa Power BI jako narzędzie analizy biznesowej
- Usługa Azure OpenAI może być używana przez serwis modelowania jako zewnętrzny model LLM
Organizacja architektur referencyjnych
Architektura referencyjna jest ustrukturyzowana wzdłuż ścieżek Source, Pozyskiwanie, Transformacja, Zapytanie/Przetwarzanie, Serwowanie, Analizai Przechowywanie:
Source
Istnieją trzy sposoby integrowania danych zewnętrznych z platformą analizy danych:
- ETL: Platforma umożliwia integrację z systemami, które zapewniają częściowo ustrukturyzowane i nieustrukturyzowane dane (takie jak czujniki, urządzenia IoT, nośniki, pliki i dzienniki), a także dane ustrukturyzowane z relacyjnych baz danych lub aplikacji biznesowych.
- Federacja Lakehouse: źródła SQL, takie jak relacyjne bazy danych, można zintegrować z Lakehouse i Unity Catalog bez etapu ETL. W takim przypadku dane systemu źródłowego podlegają katalogowi Unity, a zapytania są kierowane do systemu źródłowego.
- Federacja katalogu: katalogi Hive Metastore można również zintegrować z katalogiem Unity za pośrednictwem federacji katalogu, co umożliwia katalogowi Unity kontrolowanie tabel przechowywanych w Hive Metastore.
Ingest
Pozyskiwanie danych do lakehouse przez wsadowe lub strumieniowe przetwarzanie danych:
- Databricks Lakeflow Connect oferuje wbudowane konektory do pozyskiwania danych z aplikacji i baz danych dla przedsiębiorstw. Ostateczny potok pozyskiwania danych jest zarządzany przez Unity Catalog i jest wspierany przez bezserwerowe zasoby obliczeniowe i Pipelines.
- Pliki dostarczane do magazynu w chmurze można ładować bezpośrednio przy użyciu modułu automatycznego ładującego usługi Databricks.
- W przypadku wsadowego pozyskiwania danych z aplikacji dla przedsiębiorstw do Delta Lake, architektura jeziora danych Databricks Lakehouse opiera się na narzędziach pozyskiwania od partnerów, które posiadają określone adaptery dla tych systemów zapisu.
- Zdarzenia przesyłania strumieniowego można pozyskiwać bezpośrednio z systemów przesyłania zdarzeń, takich jak Kafka, przy użyciu Databricks Structured Streaming. Źródła przesyłania strumieniowego mogą być czujnikami, IoT lub procesami przechwytywania zmian danych.
Storage
- Dane są zwykle przechowywane w systemie przechowywania w chmurze, w którym potoki ETL używają architektury medalionowej do przechowywania danych w sposób uporządkowany jako pliki/tabele Delta lub tabele Apache Iceberg.
przekształcanie i wykonywanie zapytań/procesów
Usługa Databricks lakehouse korzysta z silników Apache Spark i Photon do wszystkich przekształceń i zapytań.
Potoki to struktura deklaratywna umożliwiająca uproszczenie i optymalizowanie niezawodnych, konserwowalnych i testowalnych potoków przetwarzania danych.
Obsługiwane przez platformy Apache Spark i Photon platforma analizy danych usługi Databricks obsługuje oba typy obciążeń: zapytania SQL za pośrednictwem magazynów SQL oraz obciążenia SQL, Python i Scala za pośrednictwem klastrów obszarów roboczych.
W przypadku nauki o danych (modelowanie uczenia maszynowego i generatywna sztuczna inteligencja) platforma Databricks AI i Machine Learning udostępnia wyspecjalizowane środowiska uruchomieniowe uczenia maszynowego dla AutoML i kodowania zadań uczenia maszynowego. Wszystkie przepływy pracy nauki o danych i MLOps są najlepiej obsługiwane przez platformę MLflow.
Serving
W przypadku magazynowania danych (DWH) i przypadków użycia BI platforma Databricks lakehouse udostępnia usługę Databricks SQL, magazyn danych obsługiwany przez magazyny SQL i bezserwerowe magazyny SQL.
W przypadku uczenia maszynowego Mosaic AI Model Serving to skalowalna, działająca w czasie rzeczywistym funkcja serwowania modelu klasy korporacyjnej uruchamiana w płaszczyźnie kontrolnej Databricks. Mozaika AI Gateway to rozwiązanie usługi Databricks do zarządzania dostępem i monitorowania do obsługiwanych modeli generacyjnych sztucznej inteligencji oraz skojarzonych z nimi modeli obsługujących punkty końcowe.
Operacyjne bazy danych:
- Lakebase to baza danych przetwarzania transakcji online (OLTP) oparta na bazie danych Postgres i w pełni zintegrowana z platformą analizy danych usługi Databricks. Umożliwia ona tworzenie baz danych OLTP w usłudze Databricks i integrowanie obciążeń OLTP z usługą Lakehouse.
- Systemy zewnętrzne, takie jak operacyjne bazy danych, mogą służyć do przechowywania i dostarczania końcowych produktów danych do aplikacji użytkowników.
Collaboration:
Partnerzy biznesowi uzyskują bezpieczny dostęp do potrzebnych danych za pośrednictwem Delta Sharing.
W oparciu o Delta Sharing, Databricks Marketplace jest otwartym forum do wymiany produktów danych.
Czyste pokoje są bezpieczne i chronią prywatność środowisk, w których wielu użytkowników może współpracować ze sobą na poufnych danych przedsiębiorstwa bez bezpośredniego dostępu do danych.
Analysis
Końcowe aplikacje biznesowe znajdują się w tym torze pływania. Przykłady obejmują klientów niestandardowych, takich jak aplikacje sztucznej inteligencji połączone z usługą Mosaic AI Model Serving na potrzeby wnioskowania w czasie rzeczywistym lub aplikacji, które uzyskują dostęp do danych wypychanych z usługi Lakehouse do operacyjnej bazy danych.
W przypadku przypadków użycia analizy biznesowej analitycy zazwyczaj używają narzędzi analizy biznesowej do uzyskiwania dostępu do magazynu danych. Deweloperzy SQL mogą dodatkowo używać Edytora SQL Databricks (nie pokazany na diagramie) do zapytań i dashboardów.
Platforma analizy danych oferuje również pulpity nawigacyjne umożliwiające tworzenie wizualizacji danych i udostępnianie szczegółowych informacji.
Integrate
- Platforma Databricks integruje się ze standardowymi dostawcami tożsamości na potrzeby zarządzania użytkownikami i logowania jednokrotnego .
Zewnętrzne usługi sztucznej inteligencji, takie jak OpenAI, LangChain lub HuggingFace mogą być używane bezpośrednio z poziomu platformy analizy usługi Databricks.
Zewnętrzni orkiestratorzy mogą korzystać z kompleksowych interfejsu API REST lub dedykowanych łączników do zewnętrznych narzędzi orkiestracji, takich jak Apache Airflow.
Unity Catalog jest używany do zarządzania wszystkimi danymi i zarządzaniem AI w Platformie Inteligencji Databricks i może integrować inne bazy danych ze swoim zarządzaniem za pośrednictwem Lakehouse Federation.
Ponadto Unity Catalog można zintegrować z innymi katalogami przedsiębiorstwa, np. Purview. Aby uzyskać szczegółowe informacje, skontaktuj się z dostawcą katalogu przedsiębiorstwa.
Typowe możliwości dla wszystkich obciążeń
Ponadto usługa Databricks Lakehouse oferuje możliwości zarządzania, które obsługują wszystkie obciążenia:
Zarządzanie danymi i sztuczną inteligencją
Centralnym systemem zarządzania danymi i sztuczną inteligencją w platformie Databricks Data Intelligence Platform jest Unity Catalog. Katalog Unity zapewnia jedno miejsce do zarządzania zasadami dostępu do danych, które mają zastosowanie we wszystkich obszarach roboczych, i obsługuje wszystkie zasoby utworzone lub używane w Lakehouse, takie jak tabele, woluminy, features (sklep funkcji) i modele (rejestr modeli). Katalog Unity może również służyć do przechwytywania linii pochodzenia danych środowiska uruchomieniowego dla zapytań uruchamianych w usłudze Databricks.
Monitorowanie jakości danych usługi Databricks umożliwia monitorowanie jakości danych wszystkich tabel na koncie. Wykrywa anomalie we wszystkich tabelach i udostępnia pełny profil danych dla każdej tabeli.
Aby można było zaobserwować, tabele systemowe to magazyn analityczny hostowany w usłudze Databricks danych operacyjnych twojego konta. Tabele systemowe mogą służyć do obserwacji historycznej na koncie.
Aparat analizy danych
Platforma Inteligencji Danych Databricks umożliwia całej organizacji korzystanie z danych i sztucznej inteligencji, łącząc generatywną SI z zaletami unifikacji Lakehouse w celu zrozumienia unikalnej semantyki danych. Zobacz Funkcje pomocnicze sztucznej inteligencji usługi Databricks.
Asystent usługi Databricks jest dostępny w notesach usługi Databricks, edytorze SQL, edytorze plików i innych miejscach jako asystent sztucznej inteligencji obsługującym kontekst dla użytkowników.
Automatyzacja & Orkiestracja
Zadania Lakeflow organizują przetwarzanie danych, uczenie maszynowe i potoki analityczne na platformie Databricks Data Intelligence. Potoki deklaratywne platformy Spark lakeflow umożliwiają tworzenie niezawodnych i konserwowalnych potoków ETL przy użyciu składni deklaratywnej. Platforma obsługuje również CI/CD oraz MLOps
Ogólne przypadki użycia platformy analizy danych na platformie Azure
Wbudowane pozyskiwanie danych z aplikacji SaaS i baz danych za pomocą Lakeflow Connect.
Pobierz: Architektura referencyjna programu Lakeflow Connect dla usługi Azure Databricks.
Usługa Databricks Lakeflow Connect oferuje wbudowane łączniki umożliwiające pozyskiwanie danych z aplikacji i baz danych dla przedsiębiorstw. Powstający potok pozyskiwania jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w Lakeflow.
Usługa Lakeflow Connect wykorzystuje wydajne operacje odczytu przyrostowego i zapisu w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, podczas gdy dane pozostają świeże do użycia podrzędnego.
Pozyskiwanie wsadowe i ETL
Pobierz: Architektura referencyjna ETL w trybie wsadowym dla platformy Azure Databricks
Narzędzia do pozyskiwania używają adapterów specyficznych dla źródła do odczytywania danych ze źródła, a następnie przechowywania ich w magazynie w chmurze, z którego Auto Loader może je odczytać, lub bezpośrednio wywołać Databricks (na przykład z narzędziami do pozyskiwania partnerów zintegrowanymi z lakehouse Databricks). Aby załadować dane, silnik ETL i przetwarzania Databricks uruchamia zapytania za pośrednictwem potoków. Organizowanie pojedynczych lub wielozadajowych zadań przy użyciu Lakeflow Jobs i zarządzanie nimi poprzez Unity Catalog (kontrola dostępu, audyt, śledzenie pochodzenia itp.). Aby zapewnić dostęp do określonych złotych tabel dla systemów operacyjnych o niskich opóźnieniach, wyeksportuj tabele do operacyjnej bazy danych, takiej jak RDBMS lub magazynu typu klucz-wartość na końcu potoku ETL.
Przesyłanie strumieniowe i przechwytywanie zmian danych (CDC)
Pobierz: Architektura strukturalnego przesyłania strumieniowego Spark dla usługi Azure Databricks
Silnik ETL usługi Databricks używa Spark Structured Streaming do odczytywania z kolejek zdarzeń, takich jak Apache Kafka lub Azure Event Hub. Kroki podrzędne są zgodne z podejściem powyższego przypadku użycia usługi Batch.
Przechwytywanie danych zmian w czasie rzeczywistym (CDC) zwykle przechowuje wyodrębnione zdarzenia w kolejce zdarzeń. W tym miejscu przypadek użycia jest zgodny z przypadkiem użycia przesyłania strumieniowego.
Jeśli CDC jest wykonywane wsadowo, z wyodrębnionymi rekordami najpierw przechowywanymi w magazynie w chmurze, Databricks Autoloader może je odczytać, a przypadek użycia odpowiada Batch ETL.
Uczenie maszynowe i sztuczna inteligencja (tradycyjna)
W przypadku uczenia maszynowego Platforma Inteligencji Danych Databricks udostępnia Mosaic AI, które jest wyposażone w najnowocześniejsze biblioteki uczenia maszynowego i uczenia głębokiego. Zapewnia takie możliwości, jak Feature Store i Model Registry (oba zintegrowane z katalogiem Unity), funkcje niskokodowe za pomocą AutoML oraz integrację MLflow z cyklem życia nauki o danych.
Katalog Unity zarządza wszystkimi elementami zawartości związanymi z nauką o danych (tabelami, funkcjami i modelami), a naukowcy danych mogą używać zadań Lakeflow Jobs do koordynowania swoich zadań.
Aby wdrożyć modele w sposób skalowalny i na poziomie korporacyjnym, użyj możliwości MLOps, aby opublikować modele w usłudze modelu.
Aplikacje agenta sztucznej inteligencji (Gen AI)
architektura referencyjna aplikacji 
Pobierz Referencyjna architektura aplikacji generatywnej sztucznej inteligencji dla usługi Azure Databricks
Aby wdrożyć modele w sposób skalowalny i na poziomie korporacyjnym, wykorzystaj możliwości MLOps do publikacji modeli w ramach serwisu modelowego.
Analiza Business Intelligence i SQL
Pobierz: Architektura referencyjna analityki biznesowej i SQL dla Azure Databricks
W przypadku przypadków użycia analizy biznesowej analitycy biznesowi mogą używać pulpitów nawigacyjnych, edytora SQL usługi Databricks lub narzędzi analizy biznesowej , takich jak Tableau lub Power BI. We wszystkich przypadkach silnik to Databricks SQL (bezserwerowy lub nieserwerowy), a Unity Catalog zapewnia odkrywanie, eksplorację danych i kontrolę dostępu.
Aplikacje biznesowe
Pobierz: Aplikacje biznesowe dla Databricks dla Azure Databricks
Usługa Databricks Apps umożliwia deweloperom tworzenie i wdrażanie bezpiecznych danych i aplikacji sztucznej inteligencji bezpośrednio na platformie Databricks, co eliminuje potrzebę oddzielnej infrastruktury. Aplikacje są hostowane na platformie bezserwerowej usługi Databricks i integrują się z kluczowymi usługami platformy. Użyj usługi Lakebase , jeśli aplikacja potrzebuje danych OLTP zsynchronizowanych z usługi Lakehouse.
Federacja Lakehouse
referencyjna architektura federacyjna 
Pobierz: Referencyjna architektura federacyjna dla Azure Databricks Lakehouse
Usługa Lakehouse Federation umożliwia integrację zewnętrznych baz danych SQL (takich jak MySQL, Postgres, SQL Server lub Azure Synapse) z usługą Databricks.
Wszystkie obciążenia (AI, DWH i BI) mogą korzystać z tego bez konieczności przenoszenia danych do magazynu obiektów. Wykaz źródeł zewnętrznych jest mapowany do katalogu Unity, a szczegółową kontrolę dostępu można zastosować w celu kontrolowania dostępu za pośrednictwem platformy Databricks.
Federacja katalogu
Pobierz: referencyjna architektura federacji katalogu dla Azure Databricks
Federacja katalogu umożliwia integrację zewnętrznych magazynów metadanych Hive (takich jak MySQL, Postgres, SQL Server lub Azure Synapse) z usługą Databricks.
Wszystkie obciążenia (AI, DWH i BI) mogą korzystać z tego bez konieczności przenoszenia danych do magazynu obiektów. Wykaz zewnętrznych źródeł jest dodawany do Unity Catalog, w którym jest stosowana szczegółowa kontrola dostępu za pośrednictwem platformy Databricks.
Udostępnianie danych za pomocą narzędzi innych firm
Udostępnianie danych klasy korporacyjnej innym firmom jest udostępniane przez usługę Delta Sharing. Umożliwia ona bezpośredni dostęp do danych w magazynie obiektów zabezpieczonym za pomocą Unity Catalog. Ta funkcja jest również używana w witrynie Databricks Marketplace — otwartym forum do wymiany produktów danych.
Korzystanie z udostępnionych danych z usługi Databricks
Protokół Delta Sharing Databricks-to-Databricks umożliwia użytkownikom bezpieczne udostępnianie danych dowolnym użytkownikom Databricks, niezależnie od konta lub hosta chmury, o ile użytkownik ma dostęp do obszaru roboczego włączonego dla Unity Catalog.