Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Nowoczesna platforma danych i sztucznej inteligencji
Aby omówić zakres platformy analizy danych usługi Databricks, warto najpierw zdefiniować podstawową strukturę dla nowoczesnej platformy danych i sztucznej inteligencji:
Omówienie zakresu lakehouse'u
Platforma analizy danych usługi Databricks obejmuje kompletną nowoczesną platformę danych. Jest ona oparta na architekturze typu lakehouse i obsługiwana przez aparat analizy danych, który rozumie unikatowe cechy danych. Jest to otwarta i zintegrowana platforma dla obciążeń ETL, ML/AI i DWH/BI, z Unity Catalog jako centralnym rozwiązaniem do zarządzania danymi i AI.
Persony struktury platformy
Struktura obejmuje kluczowych członków zespołu danych (osoby) pracujących z aplikacjami w ramach:
- Inżynierowie danych udostępniają analitykom danych i analitykom biznesowym dokładne i powtarzalne dane na potrzeby terminowego podejmowania decyzji i szczegółowych informacji w czasie rzeczywistym. Implementują wysoce spójne i niezawodne procesy ETL, aby zwiększyć zaufanie użytkowników i zaufanie do danych. Zapewniają one, że dane są dobrze zintegrowane z różnymi filarami działalności biznesowej i zwykle stosują najlepsze rozwiązania w zakresie inżynierii oprogramowania.
- Analitycy danych łączą wiedzę analityczną i wiedzę biznesową, aby przekształcić dane w strategiczne analizy i modele predykcyjne. Są one biegłe w tłumaczeniu wyzwań biznesowych na rozwiązania oparte na danych, czy to za pomocą retrospektywnych analiz analitycznych lub przyszłościowego modelowania predykcyjnego. Korzystając z technik modelowania danych i uczenia maszynowego, projektują, opracowują i wdrażają modele, które ujawniają wzorce, trendy i prognozy na podstawie danych. Działają one jako most, przekształcając złożone narracje danych w zrozumiałe historie, zapewniając interesariuszom biznesowym nie tylko ich zrozumienie, ale także możliwość działania na podstawie zaleceń opartych na danych, co z kolei napędza podejście skoncentrowane na danych w rozwiązywaniu problemów w organizacji.
- Inżynierowie uczenia maszynowego (inżynierowie uczenia maszynowego) prowadzą praktyczną aplikację nauki o danych w produktach i rozwiązaniach, tworząc, wdrażając i utrzymując modele uczenia maszynowego. Ich głównym celem jest ukierunkowanie na aspekt inżynieryjny tworzenia i wdrażania modelu. Inżynierowie ml zapewniają niezawodność, niezawodność i skalowalność systemów uczenia maszynowego w środowiskach na żywo, zajmując się wyzwaniami związanymi z jakością danych, infrastrukturą i wydajnością. Dzięki integracji modeli sztucznej inteligencji i uczenia maszynowego z operacyjnymi procesami biznesowymi i produktami dostępnymi dla użytkowników ułatwiają wykorzystanie nauki o danych w rozwiązywaniu wyzwań biznesowych, zapewniając, że modele nie tylko pozostają w badaniach, ale napędzają namacalną wartość biznesową.
- analitycy biznesowi i użytkowników biznesowych: Analitycy biznesowi zapewniają uczestnikom projektu i zespołom biznesowym dane umożliwiające podejmowanie działań. Często interpretują dane i tworzą raporty lub inną dokumentację do zarządzania przy użyciu standardowych narzędzi analizy biznesowej. Zazwyczaj jest to pierwszy punkt kontaktu dla użytkowników nietechnicznych i współpracowników operacyjnych w celu uzyskania szybkich pytań analitycznych. Pulpity nawigacyjne i aplikacje biznesowe dostarczane na platformie Databricks mogą być używane bezpośrednio przez użytkowników biznesowych.
- Deweloper aplikacji tworzy bezpieczne dane i aplikacje sztucznej inteligencji na platformie danych i udostępnia te aplikacje użytkownikom biznesowym.
- Partnerzy biznesowi są ważnymi uczestnikami projektu w coraz bardziej sieciowym świecie biznesowym. Są one definiowane jako firma lub osoby fizyczne, z którymi firma ma formalne relacje w celu osiągnięcia wspólnego celu, i mogą obejmować dostawców, dostawców, dystrybutorów i innych partnerów innych firm. Udostępnianie danych jest ważnym aspektem partnerstwa biznesowego, ponieważ umożliwia transfer i wymianę danych w celu zwiększenia współpracy i podejmowania decyzji opartych na danych.
Domeny struktury platformy
Platforma składa się z wielu domen:
- Magazyn: W chmurze dane są przechowywane głównie w skalowalnym, wydajnym i odpornym magazynie obiektów u dostawców chmury.
- Zarządzanie: możliwości w zakresie zarządzania danymi, takie jak kontrola dostępu, audyt, zarządzanie metadanymi, śledzenie pochodzenia i monitorowanie wszystkich zasobów danych i sztucznej inteligencji.
- Aparat sztucznej inteligencji: aparat sztucznej inteligencji zapewnia możliwości generowania sztucznej inteligencji dla całej platformy.
- Pozyskiwanie i przekształcanie: Możliwości obciążeń ETL.
- Analiza zaawansowana, uczenie maszynowe i sztuczna inteligencja: wszystkie możliwości związane z uczeniem maszynowym, sztuczną inteligencją, generowaniem sztucznej inteligencji, a także analizą strumieniową.
- Magazyn danych: domena obsługująca przypadki użycia DWH i BI.
- Operacyjna baza danych: Możliwości i usługi dotyczące operacyjnych baz danych, takich jak bazy danych OLTP (przetwarzanie transakcji online), magazyny klucz-wartość itp.
- Automation: Zarządzanie przepływem działań roboczych na potrzeby przetwarzania danych, uczenia maszynowego, potoków analitycznych, w tym wsparcie dla CI/CD i MLOps.
- Narzędzia ETL i do analizy danych: Narzędzia front-endowe używane głównie do pracy przez inżynierów danych, naukowców danych i inżynierów uczenia maszynowego.
- Narzędzia analizy biznesowej: narzędzia front-end używane głównie przez analityków BI do pracy.
- Dane i aplikacje sztucznej inteligencji Narzędzia, które kompilują i hostują aplikacje korzystające z danych zarządzanych przez platformę bazową i wykorzystują jej funkcje analizy i sztucznej inteligencji w bezpieczny i zgodny z ładem sposób.
- Współpraca: możliwości udostępniania danych między co najmniej dwiema stronami.
Zakres platformy usługi Databricks
Platforma Inteligencji Danych Databricks i jej składniki można zamapować do ramy w następujący sposób:
Pobieranie: Zakres lakehouse — komponenty Databricks
Obciążenia danych w usłudze Azure Databricks
Co najważniejsze, platforma inteligencji danych Databricks obejmuje wszystkie odpowiednie obciążenia dla domeny danych na jednej platformie, z Apache Spark/Photon jako silnikiem.
Pozyskiwanie i przekształcanie
Usługa Databricks oferuje kilka sposobów pozyskiwania danych:
- Databricks Lakeflow Connect oferuje wbudowane konektory do pozyskiwania danych z aplikacji i baz danych dla przedsiębiorstw. Potok danych wejściowych jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w ramach usługi Lakeflow.
- Auto Loader przyrostowo i automatycznie przetwarza pliki trafiające do przechowywania w chmurze w zaplanowanych lub ciągłych zadaniach, bez konieczności zarządzania informacjami o stanie. Po zaimportowaniu nieprzetworzone dane muszą zostać przekształcone, aby były gotowe do analizy biznesowej, uczenia maszynowego oraz sztucznej inteligencji. Usługa Databricks oferuje zaawansowane funkcje ETL dla inżynierów danych, naukowców do spraw danych i analityków.
Potoki deklaratywne platformy Lakeflow umożliwiają pisanie zadań ETL w sposób deklaratywny, upraszczając cały proces implementacji. Jakość danych można poprawić, definiując oczekiwania dotyczące danych.
Zaawansowana analiza, uczenie maszynowe i sztuczna inteligencja
Platforma obejmuje Databricks Mosaic AI, zestaw w pełni zintegrowanych narzędzi uczenia maszynowego i sztucznej inteligencji do tradycyjnego uczenia maszynowego i głębokiego, a także sztucznej inteligencji generatywnej i dużych modeli językowych (LLMs). Obejmuje cały przepływ pracy od przygotowywania danych do tworzenia modeli uczenia maszynowego i uczenia głębokiego po usługę Mozaika AI Model Serving.
Spark Structured Streaming i Lakeflow Spark Deklaratywne Potoki umożliwiają analizę w czasie rzeczywistym.
Magazyn danych
Platforma analizy danych usługi Databricks ma również kompletne rozwiązanie magazynu danych z usługą Databricks SQL, centralnie zarządzane przez usługę Unity Catalog z precyzyjną kontrolą dostępu.
Funkcje AI to wbudowane funkcje SQL, które pozwalają stosować sztuczną inteligencję bezpośrednio z poziomu SQL. Integracja sztucznej inteligencji z zadaniami analizy zapewnia dostęp do informacji, które były wcześniej niedostępne dla analityków i umożliwia im podejmowanie bardziej świadomych decyzji, zarządzanie ryzykiem i utrzymanie przewagi konkurencyjnej dzięki innowacjom i wydajności opartym na danych.
Operacyjna baza danych
Lakebase to baza danych przetwarzania transakcji online (OLTP) oparta na bazie danych Postgres i w pełni zintegrowana z platformą analizy danych usługi Databricks. Umożliwia tworzenie bazy danych OLTP w usłudze Databricks i integrowanie obciążeń OLTP z usługą Lakehouse. Usługa Lakebase umożliwia synchronizowanie danych między obciążeniami OLTP i przetwarzania analitycznego online (OLAP) oraz jest dobrze zintegrowana z zarządzaniem funkcjami, magazynami SQL i aplikacjami databricks.
Konspekt obszarów funkcji usługi Azure Databricks
Jest to mapowanie funkcji platformy analizy danych usługi Databricks na inne warstwy struktury od dołu do góry:
Magazyn w chmurze
Wszystkie dane usługi Lakehouse są przechowywane w magazynie obiektów dostawcy usług w chmurze. Usługa Databricks obsługuje trzech dostawców usług w chmurze: AWS, Azure i GCP. Pliki w różnych formatach ustrukturyzowanych i częściowo ustrukturyzowanych (na przykład Parquet, CSV, JSON i Avro), a także formatach bez struktury (takich jak obrazy i dokumenty), są pozyskiwane i przekształcane przy użyciu procesów wsadowych lub przesyłanych strumieniowo.
Usługa Delta Lake jest zalecanym formatem danych dla usługi Lakehouse (transakcje plików, niezawodność, spójność, aktualizacje itd.). Istnieje również możliwość odczytania tabel delty przy użyciu klientów Apache Iceberg.
W platformie Databricks Data Intelligence Platform nie są używane żadne zastrzeżone formaty danych: Delta Lake i Iceberg są open source, aby uniknąć blokady dostawcy.
zarządzanie danymi i sztuczną inteligencją
Na wierzchu warstwy magazynowania Unity Catalog oferuje szeroką gamę funkcji zarządzania danymi i sztuczną inteligencją, w tym zarządzanie metadanymi w metamagazynie, kontrolę dostępu, audytowanie, odkrywanie danychi pochodzenie danych.
Monitorowanie jakości danych zapewnia gotowe do użycia metryki jakości danych i zasobów sztucznej inteligencji oraz automatyczne generowanie pulpitów nawigacyjnych w celu wizualizacji tych metryk.
Zewnętrzne źródła SQL można zintegrować z lakehouse i Unity Catalog za pośrednictwem federacji lakehouse.
Aparat sztucznej inteligencji
Platforma analizy danych jest oparta na architekturze typu lakehouse i ulepszona przez funkcje oparte na sztucznej inteligencji usługi Databricks. Sztuczna inteligencja Databricks łączy generatywną sztuczną inteligencję z zaletami architektury lakehouse, aby zrozumieć unikatową semantykę danych. Inteligentne wyszukiwanie i Asystent usługi Databricks to przykłady usług opartych na sztucznej inteligencji, które upraszczają pracę z platformą dla każdego użytkownika.
Aranżacja
Lakeflow Jobs umożliwiają uruchamianie różnorodnych obciążeń dla pełnego cyklu życia danych i sztucznej inteligencji w dowolnej chmurze. Umożliwiają one koordynowanie zadań, a także deklaratywnych potoków Lakeflow Spark dla SQL, Spark, notebooków, DBT, modeli uczenia maszynowego i wiele więcej.
Narzędzia ETL i DS
W warstwie konsumpcji inżynierowie danych i inżynierowie uczenia maszynowego zwykle pracują z platformą przy użyciu IDEs. Analitycy danych często wolą notesy i używają środowisk uruchomieniowych ML i AI oraz systemu przepływu pracy uczenia maszynowego MLflow do śledzenia eksperymentów i zarządzania cyklem życia modelu.
Narzędzia analizy biznesowej
Analitycy biznesowi zazwyczaj używają preferowanego narzędzia analizy biznesowej do uzyskiwania dostępu do magazynu danych usługi Databricks. Usługa Databricks SQL może być odpytywana przez różne narzędzia analizy i biznesowej inteligencji, zobacz Analizy i wizualizacje
Ponadto platforma oferuje gotowe narzędzia do wykonywania zapytań i analizy:
- pulpity nawigacyjne sztucznej inteligencji/analizy biznesowej do przeciągania i upuszczania wizualizacji danych oraz udostępniania szczegółowych informacji.
- Eksperci z dziedziny, tacy jak analitycy danych, konfigurują przestrzenie usługi AI/BI Genie z zestawami danych, przykładowymi zapytaniami i wytycznymi tekstowymi, aby ułatwić Genie tłumaczenie pytań biznesowych na zapytania analityczne. Po skonfigurowaniu użytkownicy biznesowi mogą zadawać pytania i generować wizualizacje w celu zrozumienia danych operacyjnych.
- Edytor SQL dla analityków SQL do analizowania danych.
Dane i aplikacje sztucznej inteligencji
Databricks Apps umożliwia deweloperom tworzenie bezpiecznych danych i aplikacji sztucznej inteligencji na platformie Databricks i udostępnianie tych aplikacji użytkownikom.
Współpraca
Usługa Delta Sharing to otwarty protokół opracowany przez usługę Databricks na potrzeby bezpiecznego udostępniania danych innym organizacjom niezależnie od używanych platform obliczeniowych.
Databricks Marketplace to otwarte forum wymiany produktów danych. Wykorzystuje Delta Sharing, aby dostawcom danych zapewnić narzędzia do bezpiecznego udostępniania produktów danych, a użytkownikom danych dać możliwość eksploracji i rozszerzenia dostępu do potrzebnych im danych i usług danych.
Clean Rooms używają funkcji Delta Sharing i przetwarzania bezserwerowego, aby zapewnić bezpieczne i chroniące prywatność środowisko, w którym wiele stron może współpracować ze sobą na poufnych danych przedsiębiorstwa bez bezpośredniego dostępu do danych.