Udostępnij przez


Tworzenie nowoczesnej architektury platformy danych dla baz danych przy użyciu usług Microsoft Fabric i Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

Rozwiązania — pomysły

W tym artykule opisano pomysł rozwiązania. Architekt chmury może użyć tych wskazówek, aby ułatwić wizualizowanie głównych składników dla typowej implementacji tej architektury. Skorzystaj z tego artykułu jako punktu wyjścia, aby zaprojektować dobrze zaprojektowane rozwiązanie zgodne z konkretnymi wymaganiami obciążenia.

W tym artykule opisano, jak małe i średnie firmy (SMB) mogą tworzyć nowoczesną architekturę platformy danych, łącząc istniejące inwestycje w usługę Azure Databricks z w pełni zarządzaną platformą danych oprogramowania jako usługi (SaaS), taką jak Microsoft Fabric. Platformy danych SaaS to kompleksowe rozwiązania do analizy danych, które można łatwo zintegrować z narzędziami, takimi jak Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 i inne technologie firmy Microsoft.

Uproszczona architektura

Diagram przedstawiający uproszczoną nowoczesną architekturę platformy danych dla małych i średnich firm.

Pobierz plik programu Visio tej architektury.

Współdziałanie usług Azure Databricks i Fabric zapewnia niezawodne rozwiązanie, które minimalizuje fragmentację danych przy jednoczesnym ulepszaniu możliwości analitycznych.

Sieć szkieletowa udostępnia otwarte i zarządzane magazyny danych o nazwie OneLake jako podstawowy magazyn SaaS. Usługa OneLake używa formatu Delta Parquet, który jest taki sam, jak używany przez usługę Azure Databricks. Aby uzyskać dostęp do danych usługi Azure Databricks z usługi OneLake, możesz użyć skrótów OneLake w usłudze Fabric lub dublować katalog aparatu Unity usługi Azure Databricks w sieci szkieletowej. Ta integracja umożliwia rozszerzanie systemów analitycznych usługi Azure Databricks za pomocą generowania sztucznej inteligencji na podstawie usługi OneLake.

Możesz również użyć trybu direct lake w usłudze Power BI w danych usługi Azure Databricks w usłudze OneLake. Tryb direct lake upraszcza obsługę warstwy i poprawia wydajność raportów. Usługa OneLake obsługuje interfejsy API dla usługi Azure Data Lake Storage i przechowuje wszystkie dane tabelaryczne w formacie Delta Parquet.

W związku z tym notesy usługi Azure Databricks mogą uzyskiwać dostęp do przechowywanych danych przy użyciu punktów końcowych usługi OneLake. Środowisko jest takie samo jak uzyskiwanie dostępu do danych za pośrednictwem magazynu sieci Szkieletowej. Ta integracja umożliwia korzystanie z usługi Fabric lub Azure Databricks bez zmieniania danych.

Architektura

Diagram przedstawiający kompletną nowoczesną architekturę platformy danych dla małych i średnich firm.

Pobierz plik programu Visio tej architektury.

Przepływ danych

  1. Azure Data Factory: Użyj istniejących potoków usługi Azure Data Factory, aby pozyskiwać ustrukturyzowane i nieustrukturyzowane dane z systemów źródłowych i lądować je w istniejącym magazynie data lake.

  2. Microsoft Dynamics 365: Źródła danych usługi Microsoft Dynamics 365 umożliwiają tworzenie scentralizowanych pulpitów nawigacyjnych analizy biznesowej na rozszerzonych zestawach danych przy użyciu usługi Azure Synapse Link lub Microsoft Fabric Link. Połącz połączone, przetworzone dane z powrotem do usług Microsoft Dynamics 365 i Power BI w celu dalszej analizy.

  3. pozyskiwanie danych przesyłanych strumieniowo: dane przesyłane strumieniowo można pozyskiwać za pośrednictwem usługi Azure Event Hubs lub usługi Azure IoT Hubs, w zależności od protokołów używanych do wysyłania tych komunikatów.

  4. ścieżka zimna: Możesz przenieść dane przesyłane strumieniowo do scentralizowanego magazynu danych w celu dalszej analizy, magazynowania i raportowania przy użyciu usługi Azure Databricks. Te dane mogą być następnie ujednolicone z innymi źródłami danych na potrzeby analizy wsadowej.

  5. Gorąca ścieżka: dane przesyłania strumieniowego można analizować w czasie rzeczywistym, a pulpity nawigacyjne w czasie rzeczywistym można tworzyć za pomocą usługi Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks: Istniejące notesy usługi Azure Databricks mogą następnie służyć do czyszczenia, łączenia i analizowania danych w zwykły sposób. Rozważ użycie architektury medalonu, takiej jak:

    • Brązowy, który przechowuje nieprzetworzone dane.

    • Silver, który zawiera oczyszczone, przefiltrowane dane.

    • Złoto, które przechowuje zagregowane dane przydatne do analizy biznesowej.

  7. Złote dane lub magazyn danych: W przypadku złotych danych lub magazynu danych kontynuuj korzystanie z usługi Azure Databricks SQL lub utwórz dublowanie katalogu aparatu Unity usługi Azure Databricks w usłudze Fabric. Łatwe tworzenie pulpitów nawigacyjnych na podstawie bezserwerowej analizy danych w usłudze Fabric lakehouse bez konieczności konfigurowania przy użyciu semantycznych modeli usługi Power BI, które są automatycznie tworzone dla wszystkich magazynów typu lakehouse usługi Fabric. Magazyn danych sieci szkieletowej może być również używany jako złota warstwa, jeśli wymagania analityczne wymagają szybszego obliczeń.

Narzędzia używane do zapewniania ładu, współpracy, zabezpieczeń, wydajności i monitorowania kosztów obejmują:

  • Odnajdywanie i zarządzanie

    • Usługa Microsoft Purview udostępnia usługi odnajdywania danych, klasyfikację poufnych danych i szczegółowe informacje dotyczące ładu w obrębie infrastruktury danych.

    • Wykaz aparatu Unity zapewnia scentralizowaną kontrolę dostępu, inspekcję, pochodzenie i możliwości odnajdywania danych w obszarach roboczych usługi Azure Databricks.

  • Usługa Azure DevOps zapewnia ciągłą integrację i ciągłe wdrażanie oraz inne zintegrowane funkcje kontroli wersji.

  • Usługa Azure Key Vault zarządza wpisami tajnymi, kluczami i certyfikatami.

  • Usługa Microsoft Entra ID udostępnia logowanie jednokrotne dla użytkowników usługi Azure Databricks. Usługa Azure Databricks obsługuje automatyczną aprowizację użytkowników przy użyciu identyfikatora Entra firmy Microsoft w celu:

    • Utwórz nowych użytkowników.

    • Przypisz każdemu użytkownikowi poziom dostępu.

    • Usuń użytkowników i odmów im dostępu.

  • Usługa Azure Monitor zbiera i analizuje dane telemetryczne zasobów platformy Azure. Ta usługa maksymalizuje wydajność i niezawodność, proaktywnie identyfikując problemy.

  • Usługa Microsoft Cost Management zapewnia usługi ładu finansowego dla obciążeń platformy Azure.

Składniki

  • Data Lake Storage to skalowalna usługa magazynu danych przeznaczona dla danych ustrukturyzowanych i nieustrukturyzowanych. W tej architekturze usługa Data Lake Storage pełni rolę podstawowej infrastruktury usługi Delta Lake. Jest to podstawowa warstwa magazynu dla nieprzetworzonych i przetworzonych danych, która umożliwia wydajne pozyskiwanie danych, przechowywanie i pobieranie obciążeń analitycznych i uczenia maszynowego.

  • azure Data Factory to oparta na chmurze usługa integracji danych, która organizuje i automatyzuje przenoszenie i przekształcanie danych. W tej architekturze usługa Azure Data Factory tworzy, planuje i organizuje potoki danych, które przenoszą i przekształcają dane w różnych magazynach danych i usługach.

  • Azure Event Hubs to usługa pozyskiwania danych w czasie rzeczywistym, która może przetwarzać miliony zdarzeń na sekundę z dowolnego źródła. W tej architekturze usługa Event Hubs przechwytuje i przesyła strumieniowo duże ilości danych z różnych źródeł, aby umożliwić analizę w czasie rzeczywistym i przetwarzanie sterowane zdarzeniami.

  • Azure IoT Hub to zarządzana usługa, która zwiększa bezpieczeństwo i niezawodną komunikację między urządzeniami Internetu rzeczy (IoT) i chmurą. W tej architekturze usługa IoT Hub ułatwia pozyskiwanie, przetwarzanie i analizę danych telemetrycznych z urządzeń IoT w celu zapewnienia szczegółowych informacji w czasie rzeczywistym i włączenia monitorowania zdalnego.

  • Dataverse to skalowalna platforma danych, której organizacje mogą używać do bezpiecznego przechowywania danych używanych przez aplikacje biznesowe i zarządzania nimi. W tej architekturze służy jako źródło danych, które jest przesyłane do potoku analizy za pośrednictwem usługi Azure Synapse Link lub Microsoft Fabric Link.

    • Usługa Azure Synapse Link to funkcja integracji danych, która łączy aplikacje usługi Dynamics z usługą Azure Synapse Analytics lub Data Lake Storage. W tej architekturze kopiuje dane niemal w czasie rzeczywistym z usługi Dataverse do usługi Data Lake Storage.

    • Microsoft Fabric Link to funkcja integracji danych, która łączy aplikacje usługi Dynamics z usługą Fabric. W tej architekturze replikuje dane z usługi Dataverse do sieci szkieletowej niemal w czasie rzeczywistym.

  • Azure Databricks to oparta na platformie Apache Spark platforma analityczna do przetwarzania danych big data, uczenia maszynowego i inżynierii danych. W tej architekturze wykonuje czyszczenie, przekształcanie i analizę danych przy użyciu warstw architektury medalionu.

    • Usługa Delta Lake to warstwa magazynu typu open source, która zapewnia niepodzielność, spójność, izolację i trwałość transakcji (ACID) do obciążeń platformy Apache Spark i danych big data. W tej architekturze usługa Delta Lake zwiększa niezawodność i wydajność danych w usłudze Data Lake.

    • Azure Databricks SQL to oparta na języku SQL usługa analityczna, która umożliwia użytkownikom uruchamianie zapytań SQL dotyczących danych przechowywanych w usłudze Azure Databricks. W tej architekturze usługa Azure Databricks SQL udostępnia zaawansowany interfejs SQL do wykonywania zapytań i analizowania danych, co umożliwia interaktywną analizę.

    • Sztuczna inteligencja i uczenie maszynowe obejmują szereg technologii i usług, które umożliwiają tworzenie, wdrażanie i zarządzanie modelami uczenia maszynowego. W tej architekturze usługi sztucznej inteligencji i uczenia maszynowego tworzą, trenują i wdrażają modele predykcyjne. Ta funkcja umożliwia podejmowanie decyzji opartych na danych.

    • usługi Unity Catalog to rozwiązanie do zapewniania ładu danych, które zapewnia scentralizowaną kontrolę dostępu, inspekcję, pochodzenie i odnajdywanie danych w obszarach roboczych usługi Databricks. W tej architekturze katalog aparatu Unity pomaga zapewnić ład i bezpieczeństwo danych, zapewniając szczegółowe mechanizmy kontroli dostępu, inspekcji i śledzenia pochodzenia danych.

  • Architektura lakehouse Medallion to wzorzec architektury danych, który organizuje dane w warstwy brązowe, srebrne i złote w celu wydajnego przetwarzania i analizy danych. W tej architekturze tworzy ona przepływy pracy przetwarzania danych przy użyciu usługi Data Lake Storage, usługi Delta Lake i usługi Azure Databricks w celu obsługi skalowalnej analizy.

  • Sieć szkieletowa to kompleksowa platforma danych, która integruje różne usługi i narzędzia do zapewniania bezproblemowego zarządzania danymi i analizy. W tej architekturze sieć szkieletowa łączy i integruje dane z wielu źródeł, co umożliwia kompleksową analizę danych i szczegółowe informacje w całej organizacji.

    • Real-Time Intelligence to funkcja przetwarzania danych, która umożliwia organizacjom pozyskiwanie, przetwarzanie i analizowanie danych w czasie rzeczywistym. Real-Time Analiza przetwarza dane przesyłane strumieniowo z różnych źródeł. W tej architekturze zapewnia szczegółowe informacje w czasie rzeczywistym i umożliwia automatyczne akcje oparte na wzorcach danych.

    • Skróty OneLake tworzą link w miejscu między usługą OneLake i innymi źródłami danych. W tej architekturze upraszczają dostęp do danych i zarządzanie nimi oraz zapewniają ujednolicony widok danych w całej organizacji.

  • usługi Power BI to usługa analizy biznesowej, która zapewnia interaktywne wizualizacje i możliwości analizy biznesowej. W tej architekturze usługa Power BI wizualizuje dane z sieci szkieletowej i usługi Databricks przy użyciu trybu Direct Lake w celu zwiększenia wydajności.

  • microsoft Purview to ujednolicona usługa ładu danych, która ułatwia organizacjom zarządzanie danymi i zarządzanie nimi w różnych źródłach. W tej architekturze kataloguje dane, śledzi pochodzenie i wymusza zgodność między infrastrukturą danych. Wykaz aparatu Unity można zintegrować z usługą Purview , aby uzyskać dostęp do metadanych wykazu aparatu Unity z usługi Purview.

  • microsoft Entra ID to oparte na chmurze rozwiązanie do zarządzania tożsamościami i dostępem, które pomaga zapewnić bezpieczne logowanie i dostęp do zasobów, takich jak Microsoft 365, Azure i inne aplikacje SaaS. W tej architekturze identyfikator Entra firmy Microsoft zapewnia bezpieczne zarządzanie tożsamościami i dostępem dla zasobów platformy Azure. Ta funkcja umożliwia bezpieczne logowanie, zarządza tożsamościami użytkowników i pomaga zapewnić autoryzowany dostęp do danych i zasobów.

  • microsoft Cost Management to pakiet narzędzi FinOps, których organizacje mogą używać do analizowania, monitorowania i optymalizowania kosztów chmury firmy Microsoft. W tej architekturze te narzędzia zapewniają nadzór finansowy nad zasobami platformy Azure.

  • key vault to usługa w chmurze, która przechowuje wpisy tajne i zarządza nimi, takimi jak klucze interfejsu API, hasła, certyfikaty i klucze kryptograficzne. W tej architekturze usługa Azure Databricks może pobierać wpisy tajne z usługi Key Vault w celu uwierzytelniania i uzyskiwania dostępu do usługi Data Lake Storage, co zapewnia bezpieczną integrację.

  • Azure Monitor to usługa monitorowania, która zapewnia wgląd w pełny stos dla aplikacji, infrastruktury i sieci. Usługa Azure Monitor umożliwia użytkownikom zbieranie, analizowanie i wykonywanie działań dotyczących danych telemetrycznych ze środowisk platformy Azure i środowiska lokalnego. W tej architekturze usługa Azure Monitor zapewnia wydajność i niezawodność, proaktywnie identyfikując problemy.

  • azure DevOps to zestaw narzędzi programistycznych, które obsługują kulturę współpracy i usprawnione procesy. Te narzędzia umożliwiają deweloperom, menedżerom projektów i współautorom wydajniejsze tworzenie oprogramowania. Usługa Azure DevOps udostępnia zintegrowane funkcje, takie jak Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans i Azure Artifacts. Dostęp do tych funkcji można uzyskać za pośrednictwem przeglądarki internetowej lub zintegrowanego klienta środowiska deweloperskiego. W tej architekturze usługa Azure DevOps obsługuje automatyczne wdrażanie i kontrolę wersji dla potoków danych i notesów.

  • github to oparta na chmurze usługa hostingu repozytorium Git, która upraszcza kontrolę wersji i współpracę deweloperów. Osoby i zespoły mogą przechowywać swój kod i zarządzać nim, śledzić zmiany i współpracować nad projektami. W tej architekturze usługa GitHub integruje się z usługą Azure DevOps, aby wymusić automatyzację i zgodność w przepływach pracy programowania oraz potokach wdrażania dla usług Azure Data Factory, Azure Databricks i Fabric.

Alternatywy

Alternatywy usługi w ramach tej architektury

  • pozyskiwania w usłudze Batch

  • pozyskiwania usługi Microsoft Dynamics 365

  • pozyskiwanie danych przesyłanych strumieniowo

    • Decyzja między usługami Azure IoT i Event Hubs zależy od źródła danych przesyłanych strumieniowo, czy wymagana jest klonowanie i dwukierunkowa komunikacja z urządzeniami raportowania oraz wymagane protokoły. Aby uzyskać więcej informacji, zobacz Compare IoT Hub and Event Hubs.
  • Lakehouse

    • Microsoft Fabric Lakehouse to ujednolicona platforma architektury danych do zarządzania danymi ustrukturyzowanymi i nieustrukturyzowanymi w otwartym formacie, który używa głównie plików Delta Parquet. Obsługuje dwa typy magazynów. Te typy magazynów to tabele zarządzane, takie jak CSV, Parquet lub Delta oraz pliki niezarządzane. Tabele zarządzane są automatycznie rozpoznawane. Niezarządzane pliki wymagają jawnego utworzenia tabeli. Platforma umożliwia przekształcanie danych za pośrednictwem punktów końcowych Platformy Spark lub SQL i bezproblemowo integruje się z innymi składnikami sieci szkieletowej. Bezproblemowa integracja umożliwia udostępnianie danych bez duplikowania. Ta koncepcja jest zgodna z typową architekturą medalionu używaną w obciążeniach analitycznych. Aby uzyskać więcej informacji, zobacz Lakehouse in Fabric (Usługa Lakehouse w usłudze Fabric).
  • analizy w czasie rzeczywistym

    • azure Databricks

      • Jeśli masz istniejące rozwiązanie usługi Azure Databricks, możesz nadal używać przesyłania strumieniowego ze strukturą na potrzeby analizy w czasie rzeczywistym. Aby uzyskać więcej informacji, zobacz Streaming on Databricks.
    • Tkanina

      • Jeśli w przeszłości używasz innych usług platformy Azure do analizy w czasie rzeczywistym lub nie masz istniejącego rozwiązania do analizy w czasie rzeczywistym, zobacz Fabric Real-Time Intelligence vs Azure Streaming Solutions.

      • Przesyłanie strumieniowe ze strukturą sieci szkieletowej używa przesyłania strumieniowego ze strukturą platformy Spark do przetwarzania i pozyskiwania strumieni danych na żywo jako stale dołączanych tabel. Przesyłanie strumieniowe ze strukturą obsługuje różne źródła plików, takie jak CSV, JSON, ORC, Parquet i usługi obsługi komunikatów, takie jak Kafka i Event Hubs. Takie podejście zapewnia skalowalne i odporne na uszkodzenia przetwarzanie strumieni, co optymalizuje środowiska produkcyjne o wysokiej przepływności. Aby uzyskać więcej informacji, zobacz Przesyłanie strumieniowe ze strukturą platformy Spark w sieci szkieletowej.

  • inżynierii danych

  • Data Warehouse lub gold layer

  • data science

    • Użyj usługi Fabric lub Azure Databricks na potrzeby możliwości nauki o danych. Aby uzyskać więcej informacji na temat oferty analizy danych sieci szkieletowej, zobacz Co to jest nauka o danych w usłudze Fabric?. Aby uzyskać więcej informacji na temat oferty usługi Azure Databricks, zobacz sztucznej inteligencji i uczenia maszynowego w usłudze Databricks.

    • Nauka o danych w sieci szkieletowej różni się od uczenia maszynowego. Usługa Machine Learning udostępnia kompleksowe rozwiązanie do zarządzania przepływami pracy i wdrażania modeli uczenia maszynowego. Analiza danych sieci szkieletowej jest dostosowana do scenariusza analizy i raportowania.

  • usługi Power BI

    • Usługa Azure Databricks zintegrowana z usługą Power BI umożliwia bezproblemowe przetwarzanie danych i wizualizację. Aby uzyskać więcej informacji, zobacz Connect Power BI to Azure Databricks.

    • Dublując katalog aparatu Unity usługi Azure Databricks w sieci szkieletowej, możesz uzyskać dostęp do danych zarządzanych przez wykaz aparatu Unity usługi Azure Databricks bezpośrednio z obciążenia sieci szkieletowej. Aby uzyskać więcej informacji, zobacz Dublowanie usługi Azure Databricks Unity Catalog.

    • Utwórz skrót z usługi Data Lake Storage z usługą Delta Lake do usługi Fabric One Lake. Aby uzyskać więcej informacji, zobacz Integrowanie wykazu aparatu Unity usługi Databricks z usługą OneLake. Możesz wykonywać zapytania dotyczące tych danych z usługi Power BI przy użyciu trybu Direct Lake bez kopiowania danych do usługi Power BI. Aby uzyskać więcej informacji, zobacz Tryb direct lake.

Szczegóły scenariusza

Małe i średnie firmy, które mają istniejące środowisko usługi Azure Databricks i opcjonalnie, architekturę lakehouse, mogą korzystać z tego wzorca. Obecnie używają narzędzia do wyodrębniania, przekształcania i ładowania platformy Azure, takiego jak usługa Azure Data Factory i obsługują raporty w usłudze Power BI. Mogą jednak również mieć wiele źródeł danych, które używają różnych zastrzeżonych formatów danych w tym samym magazynie typu data lake, co prowadzi do duplikowania danych i obaw dotyczących blokady dostawcy. Taka sytuacja może komplikować zarządzanie danymi i zwiększać zależność od określonych dostawców. Mogą one również wymagać up-to— data i niemal w czasie rzeczywistym raportowanie na potrzeby podejmowania decyzji i zainteresowanie wdrażaniem narzędzi sztucznej inteligencji w całym środowisku.

Sieć szkieletowa to otwarta, ujednolicona i zarządzana fundacja SaaS, której można użyć do:

  • Usługa OneLake służy do przechowywania i analizowania danych oraz zarządzania nimi w jednej lokalizacji bez obaw dotyczących blokady dostawcy.

  • Szybsze wprowadzanie innowacji dzięki integracji z aplikacjami platformy Microsoft 365.

  • Uzyskaj szybki wgląd w szczegółowe informacje dzięki korzyściom z trybu direct lake usługi Power BI.

  • Skorzystaj z copilots w każdym środowisku fabric.

  • Przyspiesz analizę, opracowując modele sztucznej inteligencji na jednej podstawie.

  • Zachowaj dane na miejscu bez przenoszenia, co skraca czas potrzebny analitykom danych na zapewnienie wartości.

Współpracowników

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Autorzy zabezpieczeń:

Aby wyświetlić niepubalne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki