Udostępnij przez


Nowoczesne magazyny danych dla małych lub średnich firm

Azure Data Lake
Azure SQL Database
Microsoft Fabric

W tym artykule opisano sposoby, w jakie małe i średnie firmy mogą migrować i modernizować starsze magazyny danych w ramach ich bieżących budżetów i zestawów umiejętności. Pokazuje on, jak stopniowo eksplorować narzędzia i możliwości danych big data. Te rozwiązania do magazynowania danych integrują się z usługami Azure Machine Learning, Foundry Tools, Microsoft Power Platform, Dynamics 365 i innymi technologiami firmy Microsoft. Te rozwiązania stanowią początkowy punkt wejścia do usługi Microsoft Fabric, który jest platformą danych zarządzanego oprogramowania jako usługi (SaaS), która może rozwijać się wraz ze wzrostem potrzeb.

Ten wzorzec obsługuje małe lub średnie firmy, które mają następujące cechy:

  • Używanie lokalnego programu SQL Server na potrzeby rozwiązań magazynowania danych poniżej 1 terabajtu (TB)

  • Stosowanie tradycyjnych narzędzi programu SQL Server, takich jak SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS), typowe procedury składowane SQL i zadania agenta programu SQL Server

  • Korzystanie z zewnętrznych narzędzi wyodrębniania, przekształcania i ładowania (ETL) oraz wyodrębniania, ładowania i przekształcania (ELT)

  • Polegaj na replikacji migawek na potrzeby synchronizacji danych

  • Uruchamianie operacji wsadowych i brak wymogu raportowania w czasie rzeczywistym

Uproszczona architektura

Diagram przedstawiający uproszczoną architekturę biznesową o małych lub średnich rozmiarach.

Diagram przedstawiający przepływ danych na potrzeby modernizacji małych lub średnich magazynów danych biznesowych. Po lewej stronie tradycyjne rozwiązanie do magazynowania danych łączy się za pośrednictwem strzałki potoku danych z kropkowanym polem oznaczonym jako Magazyn i proces. To pole zawiera usługi Azure SQL Database i Azure SQL Managed Instance oraz łączy się z drugim polem kropkowym oznaczonym etykietą Proces i obecny. To pudełko zawiera Fabric i łączy się z usługą Power BI.

Pobierz plik programu Visio tej architektury.

Koncepcyjna możliwość modernizacji obejmuje przejście starszego rozwiązania do magazynowania danych do kombinacji usług Azure SQL Database, Azure SQL Managed Instance i Fabric. Ta strategia zapewnia szeroką zgodność z tradycyjnymi narzędziami klienckimi sql Server i SQL, takimi jak SQL Server Management Studio (SSMS). Udostępnia również opcje ponownego hostowania istniejących procesów i wymaga minimalnego upskillingu dla zespołu pomocy technicznej. To rozwiązanie stanowi początkowy krok w kierunku kompleksowej modernizacji. W miarę rozwoju magazynu danych i zdobywania doświadczenia przez twój zespół, możesz przejść do magazynowania SaaS na Fabric lub wdrożyć podejście lakehouse.

Starsze magazyny danych dla małych lub średnich firm mogą zawierać kilka typów danych:

  • Dane bez struktury, takie jak dokumenty i grafiki

  • Dane częściowo ustrukturyzowane, takie jak dzienniki, wartości rozdzielane przecinkami (CSV), pliki JSON i XML

  • Dane relacyjne strukturalne, w tym bazy danych korzystające z procedur składowanych do działań ETL i ELT

Architektura

Diagram ilustrujący rozszerzoną architekturę zaprojektowaną pod kątem przyszłych potrzeb.

Diagram przedstawiający architekturę przepływu danych od lewej do prawej z wieloma źródłami danych, etapami przetwarzania i punktami końcowymi zużycia. Po lewej stronie przedstawiono trzy kategorie źródeł danych: źródła strumieniowe, Dynamics 365 oraz dane niestrukturalne, dane półstrukturalne i relacyjne bazy danych. Cztery sekcje kropkowane przechodzą od lewej do prawej. Pierwsza sekcja opatrzona jest etykietą "Ładowanie i pobieranie danych" i zawiera usługę Azure Event Hubs oraz potok Azure Data Factory. Druga sekcja jest oznaczona etykietą magazyn i zawiera usługi Azure Data Lake Storage i SQL Database. Trzecia sekcja jest oznaczona jako przetwarzanie i manipulacja, i zawiera Fabric Real-Time Intelligence oraz OneLake. Czwarta sekcja jest oznaczona jako współpraca i konsumpcja oraz zawiera punkt końcowy analityki SQL, pulę Apache Spark i pipeline'y. Trzecie i czwarte sekcje znajdują się w środowisku sieci szkieletowej z etykietą Pojemność sieci szkieletowej, Pojemność Premium lub Premium na użytkownika. W kroku 3 źródła przesyłania strumieniowego wskazują usługę Event Hubs. Dane bez struktury, dane częściowo ustrukturyzowane i relacyjne bazy danych wskazują potok Data Factory. Strzałka wskazuje od Event Hubs do analizy w czasie rzeczywistym. Strzałki z usługi Event Hubs oraz z Dynamics 365, oznaczonej etykietą krok 2, a także z potoku usługi Data Factory, wskazują na usługę Data Lake Storage. W kroku 1 strzałka z potoku usługi Data Factory wskazuje usługę SQL Database. W kroku 4 usługa Data Lake Storage łączy się z usługą OneLake. W kroku 5 pomarańczowe pole kropkowane z etykietą analizy bezserwerowej zawiera usługę Data Lake Storage, OneLake i punkt końcowy analizy SQL. Po prawej stronie sekcja Konsumpcja i Serwowanie zawiera siedem punktów końcowych: Power Apps, Dynamics 365, Dynamics CRM, Power BI, Azure Functions Apps, Azure Logic Apps i Aplikacje Web. Strzałki wskazują od każdego składnika w sekcji współpracy i konsumpcji do tych punktów końcowych.

Pobierz plik programu Visio tej architektury.

Przepływ danych

Poniższy przepływ danych odpowiada poprzedniemu diagramowi:

  1. Potoki danych Fabric lub potoki usługi Azure Data Factory wprowadzają dane transakcyjne do rozwiązania magazynu danych.

    • Potoki organizują przepływ migrowanych lub częściowo refaktoryzowanych starszych baz danych i pakietów usług SSIS do usługi SQL Database lub wystąpienia zarządzanego SQL. To podejście do rehostingu zapewnia przejście z lokalnego rozwiązania bazodanowego SQL do przyszłego środowiska SaaS Fabric. Bazy danych można modernizować przyrostowo po migracji początkowej.

    • Potoki mogą przenosić dane niestrukturalizowane, półustrukturyzowane i ustrukturyzowane do usługi Azure Data Lake Storage na potrzeby scentralizowanego przechowywania i analizy między źródłami. Użyj tego podejścia podczas łączenia danych z wielu źródeł, co zapewnia większą wartość biznesową niż migrowanie danych na nową platformę.

  2. Użyj danych z usługi Dynamics 365, aby tworzyć scentralizowane pulpity nawigacyjne analizy biznesowej (BI) przy użyciu narzędzi analizy bezserwerowej Fabric na wzbogaconych zestawach danych. Dane usługi Dynamics 365 można przesyłać do usługi Data Lake Storage lub łączyć środowisko Dataverse bezpośrednio z Fabric, używając skrótu Dynamics 365 w OneLake. Możesz pisać wyniki analizy z powrotem do usługi Dynamics 365 lub kontynuować analizę w usłudze Fabric.

  3. Usługa Azure Event Hubs lub inne rozwiązania do przesyłania strumieniowego przesyłają strumieniowo dane w czasie rzeczywistym do systemu. "Inteligencja w czasie rzeczywistym sieci szkieletowej zapewnia natychmiastową analizę w celu obsługi pulpitów nawigacyjnych w czasie rzeczywistym."

  4. Skróty usługi Data Lake Storage umieszczają dane w usłudze Fabric OneLake na potrzeby analizy, magazynowania i raportowania. Takie podejście analizuje dane bez ich przenoszenia i udostępnia je konsumentom podrzędnym.

  5. Sieć szkieletowa udostępnia narzędzia do analizy bezserwerowej na żądanie, takie jak punkt końcowy analizy SQL i platforma Apache Spark, bez konieczności aprowizowania zasobów. Te narzędzia obsługują następujące działania:

    • Działania ETL i ELT dotyczące danych usługi OneLake

    • Udostępnianie złotej warstwy architektury medalionu w raportach Power BI za pomocą funkcji DirectLake

    • Improwizowane eksploracje nauki o danych w języku T-SQL lub Python

    • Wczesne tworzenie prototypów dla jednostek magazynu danych

Usługa Fabric integruje się z odbiorcami twoich zestawów danych z wieloma źródłami, w tym z raportami Power BI, usługą Machine Learning, Power Apps, Azure Logic Apps, Azure Functions oraz aplikacjami internetowymi Azure App Service.

Składniki

  • Sieć szkieletowa to usługa analityczna, która łączy funkcje inżynierii danych, magazynowania danych, nauki o danych i danych w czasie rzeczywistym oraz analizy biznesowej. W tej architekturze funkcje inżynierii danych sieci szkieletowej zapewniają platformę współpracy dla inżynierów danych, analityków danych, analityków danych i specjalistów ds. analizy biznesowej. Fabric używa bezserwerowych silników obliczeniowych do generowania wniosków wspierających podejmowanie decyzji biznesowych.

  • Usługi SQL Database i SQL Managed Instance to oparte na chmurze usługi relacyjnej bazy danych. W tej architekturze te usługi hostują magazyn danych przedsiębiorstwa i wykonują działania ETL i ELT przy użyciu procedur składowanych lub pakietów zewnętrznych (SSIS). Usługi SQL Database i SQL Managed Instance to środowiska platformy jako usługi (PaaS), których można użyć do spełnienia wymagań dotyczących wysokiej dostępności i odzyskiwania po awarii. Wybierz jednostkę SKU spełniającą twoje wymagania. Aby uzyskać więcej informacji, zobacz Wysoka dostępność dla usługi SQL Database i Wysoka dostępność dla usługi SQL Managed Instance.

  • Event Hubs to platforma przesyłania strumieniowego danych w czasie rzeczywistym i usługa pozyskiwania zdarzeń. W tej architekturze usługa Event Hubs integruje się z usługami danych platformy Azure w celu pozyskiwania danych przesyłanych strumieniowo z różnych źródeł do usługi Data Lake Storage na potrzeby analizy i raportowania. Usługa Event Hubs może również przesyłać strumieniowo dane bezpośrednio do usługi Real-Time Intelligence.

  • Data Lake Storage to scentralizowane repozytorium oparte na chmurze, które przechowuje dane ustrukturyzowane i nieustrukturyzowane. W tej architekturze usługa Data Lake Storage może przechowywać zarchiwizowane dane przesyłane strumieniowo i kopie danych usługi Dynamics 365.

Alternatywy

Szczegóły scenariusza

Małe lub średnie firmy, które modernizują lokalne magazyny danych dla chmury, mogą wybierać między dwoma podejściami. Możesz wdrożyć narzędzia do obsługi danych big data na potrzeby przyszłej skalowalności lub użyć tradycyjnych rozwiązań opartych na języku SQL na potrzeby wydajności kosztów i przewidywalnego przejścia. Podejście hybrydowe umożliwia migrowanie istniejących danych przy użyciu nowoczesnych narzędzi i funkcji sztucznej inteligencji. Źródła danych oparte na języku SQL można przechowywać w chmurze i zmodernizować je przyrostowo.

W tym artykule opisano, jak małe lub średnie firmy mogą modernizować starsze magazyny danych i wdrażać narzędzia do obsługi danych big data, pozostając w istniejących budżetach i zestawach umiejętności. Te rozwiązania do magazynowania danych platformy Azure integrują się z platformą Azure i usługami firmy Microsoft, w tym narzędziami Foundry, dynamics 365 i platformą Power Platform.

Potencjalne przypadki użycia

  • Migrowanie tradycyjnego lokalnego relacyjnego magazynu danych, który jest mniejszy niż 1 TB i używa pakietów usług SSIS do organizowania procedur składowanych.

  • Połącz dane usługi Dynamics 365 lub Dataverse z danymi wsadowymi i w czasie rzeczywistym z usługi Data Lake Storage.

  • Użyj innowacyjnych technik, aby wchodzić w interakcje ze scentralizowanymi danymi usługi Data Lake Storage. Te techniki obejmują analizę bezserwerową, wyszukiwanie wiedzy, łączenie danych między domenami i samoobsługową eksplorację danych przy użyciu narzędzia Copilot w usłudze Fabric.

  • Umożliwiaj firmom handlu elektronicznego wdrażanie magazynowania danych w chmurze na potrzeby optymalizacji operacyjnej.

Nie zalecamy korzystania z tego rozwiązania w następujących scenariuszach:

  • Wdrożenia magazynu danych Greenfield. W tym scenariuszu zobacz Greenfield lakehouse on Fabric.

  • Lokalne magazyny danych, które mają rozmiar 1 TB lub większy, lub osiągają ten rozmiar w ciągu roku. Większość organizacji stosuje wyspecjalizowane rozwiązania do magazynowania danych dla magazynów danych o tym rozmiarze. W przypadku tych scenariuszy zobacz alternatywy do przeplatformowania.

Kwestie wymagające rozważenia

Te zagadnienia obejmują implementację filarów platformy Azure Well-Architected Framework, która jest zestawem wytycznych, których można użyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Well-Architected Framework.

Reliability

Niezawodność pomaga zapewnić, że aplikacja może spełnić zobowiązania podjęte przez klientów. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca niezawodności.

Ty i Firma Microsoft współdzielą odpowiedzialność za niezawodność większości usług platformy Azure. Firma Microsoft oferuje możliwości wspierania odporności i odzyskiwania. Musisz zrozumieć, jak te możliwości działają w każdej używanej usłudze i wybrać konfiguracje spełniające cele biznesowe i cele dotyczące czasu pracy. Przejrzyj dokumentację specyficzną dla usługi, aby wybrać konfiguracje spełniające cele ciągłości działania i odzyskiwania po awarii.

Optymalizacja kosztów

Optymalizacja kosztów koncentruje się na sposobach zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca optymalizacji kosztów.

  • Kalkulator cen platformy Azure umożliwia modyfikowanie wartości, aby zrozumieć, w jaki sposób określone wymagania wpływają na koszty. Zobacz przykładowy cennik dla scenariusza magazynowania danych biznesowych o małych lub średnich rozmiarach.

  • Cennik usługi SQL Database zależy od warstwy obliczeniowej, warstwy usługi, liczby rdzeni wirtualnych i jednostek transakcji bazy danych. W przykładzie cenowym użyto pojedynczej bazy danych z przydzielonymi obliczeniami i ośmioma vCore do uruchamiania procedur składowanych w usłudze Azure SQL Database. Koszty można obniżyć przy użyciu pojemności zarezerwowanej i korzyści użycia hybrydowego platformy Azure.

  • Cennik usługi Data Lake Storage zależy od ilości miejsca do magazynowania i częstotliwości dostępu do danych. Przykładowy cennik obejmuje 1 TB magazynu danych i powiązane koszty transakcji. Rozmiar 1 TB reprezentuje rozmiar magazynu data lake, a nie oryginalny rozmiar starszej bazy danych. Usługa Data Lake Storage to dodatkowy koszt modernizacji wykraczające poza starszą bazę danych.

  • Ceny Fabric zależą od modelu pojemności Fabric F lub modelu Premium na osobę. Możliwości bezserwerowe zużywają procesor i pamięć z zakupionej pojemności dedykowanej. Po modernizacji istniejące raporty będą nadal działać, łącząc się z nowym magazynem danych (SQL Database lub wystąpieniem zarządzanym SQL) przy użyciu istniejącego licencjonowania. Przykładowy cennik zawiera jednostkę SKU F2 reprezentującą przyszłe rozszerzanie analizy biznesowej poprzez samoobsługowe przygotowanie danych, magazyny danych, analizę w czasie rzeczywistym oraz przepływy pracy wspomagane sztuczną inteligencją. Jednostka SKU F2 z roczną rezerwacją zapewnia ekonomiczny punkt wejścia. Jeśli obecnie używasz usługi Power BI Premium lub migrujesz do wersji F64, być może nie potrzebujesz dodatkowej pojemności F.

  • Cennik usługi Event Hubs zależy od wybranej warstwy, aprowizowanych jednostek przepływności (PTU) i ruchu przychodzącego. W przykładzie cenowym założono, że jedna jednostka przepływności w warstwie Standardowa obsługuje ponad milion zdarzeń miesięcznie. Usługa Event Hubs reprezentuje dodatkowy koszt modernizacji, jeśli do rozwiązania zostaną dodane możliwości przesyłania strumieniowego w czasie rzeczywistym.

Współautorzy

Firma Microsoft utrzymuje ten artykuł. Następujący współautorzy napisali ten artykuł.

Główny autor:

Inny współautor:

Aby wyświetlić niepubliczne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki