Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Magazynowanie danych odnosi się do zbierania i przechowywania danych z wielu źródeł, dzięki czemu można je szybko uzyskać w celu uzyskania dostępu do szczegółowych informacji biznesowych i raportowania. Ten artykuł zawiera kluczowe pojęcia dotyczące tworzenia magazynu danych w twoim data lakehouse.
Magazynowanie danych w Lakehouse
Architektura lakehouse i usługa Databricks SQL zapewniają możliwości magazynowania danych w chmurze do Twoich jezior danych. Korzystając ze znanych struktur danych, relacji i narzędzi do zarządzania, można modelować wysoce wydajny, ekonomiczny magazyn danych działający bezpośrednio w usłudze Data Lake. Aby uzyskać więcej informacji, zobacz Co to jest jezioro?
Podobnie jak w przypadku tradycyjnego magazynu danych, modelujesz dane zgodnie z wymaganiami biznesowymi, a następnie udostępniasz je użytkownikom końcowym na potrzeby analiz i raportów. W przeciwieństwie do tradycyjnego magazynu danych można uniknąć silosowania danych analizy biznesowej lub tworzenia nadmiarowych kopii, które szybko stają się nieaktualne.
Utworzenie magazynu danych w Lakehouse umożliwia przeniesienie wszystkich danych do jednego systemu i korzystanie z funkcji, takich jak Unity Catalog i technologia Delta Lake.
Unity Catalog dodaje ujednolicony model zarządzania, dzięki czemu można zabezpieczyć i przeprowadzić audyt dostępu do danych oraz udostępnić informacje o pochodzeniu w tabelach podrzędnych. Delta Lake dodaje transakcje ACID i ewolucję schematu, między innymi potężne narzędzia do zapewniania niezawodności, skalowalności i wysokiej jakości danych.
Co to jest usługa Databricks SQL?
Uwaga / Notatka
Usługa Databricks SQL Serverless nie jest dostępna na platformie Azure w Chinach. Usługa Databricks SQL nie jest dostępna w regionach usługi Azure Government.
Usługa Databricks SQL to kolekcja usług, które zapewniają możliwości magazynowania danych i wydajność istniejących magazynów danych. Usługa Databricks SQL obsługuje otwarte formaty i standardową usługę ANSI SQL. Edytor SQL w platformie oraz narzędzia do zarządzania pulpitem nawigacyjnym umożliwiają członkom zespołu bezpośrednią współpracę z innymi użytkownikami usługi Azure Databricks w obrębie przestrzeni roboczej. Usługa Databricks SQL integruje się również z różnymi narzędziami, dzięki czemu analitycy mogą tworzyć zapytania i pulpity nawigacyjne w swoich ulubionych środowiskach bez dostosowywania się do nowej platformy.
Usługa Databricks SQL udostępnia ogólne zasoby obliczeniowe, które działają na tabelach w lakehouse. Usługa Databricks SQL jest obsługiwana przez magazyny SQL, dawniej nazywane punktami końcowymi SQL, oferując skalowalne zasoby obliczeniowe SQL oddzielone od magazynu danych.
Aby uzyskać więcej informacji na temat ustawień domyślnych i opcji usługi SQL Warehouse, zobacz Magazyny SQL .
Usługa Databricks SQL integruje się z Unity Catalog, umożliwiając odnajdywanie, kontrolę i zarządzanie zasobami danych z jednego miejsca. Aby dowiedzieć się więcej, zobacz Co to jest Unity Catalog?
Modelowanie danych w usłudze Azure Databricks
Architektura lakehouse obsługuje różne style modelowania. Na poniższej ilustracji przedstawiono sposób, w jaki dane są wyselekcjonowane i modelowane podczas przechodzenia przez różne warstwy jeziora.
Architektura medalionu
Architektura medallion to wzorzec projektowania danych, który opisuje serię warstw danych doskonalonych krok po kroku, zapewniających podstawową strukturę w lakehouse, czyli domu danych. Warstwy z brązu, srebra i złota oznaczają coraz większy poziom jakości danych, a złoto reprezentuje najwyższą jakość. Aby uzyskać więcej informacji, zobacz Co to jest architektura medalionowa lakehouse?.
Wewnątrz jeziora każda warstwa może zawierać co najmniej jedną tabelę. Magazyn danych jest modelowany w warstwie srebrnej i generuje wyspecjalizowane składnice danych w warstwie złota.
Warstwa brązu
Dane mogą trafiać do obiektu Lakehouse w dowolnym formacie i za pomocą dowolnej kombinacji transakcji wsadowych lub strumieniowych. Warstwa z brązu zapewnia przestrzeń do przechowywania wszystkich danych pierwotnych w oryginalnym formacie. Te dane są konwertowane na tabele delty.
Warstwa srebrna
Warstwa srebrna łączy dane z różnych źródeł. W ramach firmy, która koncentruje się na aplikacjach nauki o danych i uczeniu maszynowym, zaczynasz curować znaczące zasoby danych. Ten proces jest często oznaczony przez skupienie się na szybkości i elastyczności.
Warstwa srebrna to również miejsce, w którym można starannie zintegrować dane z różnych źródeł w celu utworzenia magazynu danych zgodnie z istniejącymi procesami biznesowymi. Często te dane są zgodne z trzecią postacią normalną (3NF) lub modelem Data Vault. Określanie ograniczeń klucza głównego i obcego umożliwia użytkownikom końcowym zrozumienie relacji między tabelami podczas korzystania z Unity Catalog. Magazyn danych powinien służyć jako jedyne źródło wiarygodnych danych dla składnic danych.
Sam magazyn danych to schemat przy zapisie i atomowy. Jest ona zoptymalizowana pod kątem zmian, dzięki czemu można szybko zmodyfikować magazyn danych w celu dopasowania ich do bieżących potrzeb, gdy procesy biznesowe zmieniają się lub ewoluują.
Warstwa złota
Warstwa złota to warstwa prezentacji, która może zawierać jedną lub więcej składnic danych. Często składnice danych są modelami wymiarowymi w postaci zestawu powiązanych tabel, które przechwytują określoną perspektywę biznesową.
Warstwa złota zawiera również piaskownice działowe i naukowe, aby umożliwić samoobsługowe analizy i naukę o danych w całym przedsiębiorstwie. Udostępnienie tych piaskownic i odrębnych klastrów obliczeniowych zapobiega tworzeniu kopii danych przez zespoły biznesowe poza systemem lakehouse.
Dalsze kroki
Aby dowiedzieć się więcej na temat zasad i najlepszych rozwiązań dotyczących implementowania i obsługi usługi Lakehouse przy użyciu usługi Azure Databricks, zobacz Architektura usługi Lakehouse.