Używanie usługi Azure Synapse Analytics do przetwarzania danych typu lakehouse niemal w czasie rzeczywistym

Wyszukiwanie AI platformy Azure

Azure Cosmos DB

Azure Data Lake

Azure Event Hubs

Azure Synapse Analytics

Przedsiębiorstwa oparte na danych muszą zachować swoje systemy zaplecza i analizy niemal w czasie rzeczywistym z aplikacjami dostępnymi dla klientów. Skutki transakcji, aktualizacji i zmian muszą odzwierciedlać dokładnie procesy kompleksowe, powiązane aplikacje i systemy przetwarzania transakcji online (OLTP). Tolerowane opóźnienie zmian w aplikacjach OLTP odzwierciedlanych w systemach podrzędnych korzystających z danych może potrwać tylko kilka minut.

W tym artykule opisano kompleksowe rozwiązanie do przetwarzania danych niemal w czasie rzeczywistym w celu zapewnienia synchronizacji danych typu lakehouse. Rozwiązanie korzysta z usług Azure Event Hubs, Azure Synapse Analytics i Azure Data Lake Storage do przetwarzania i analizy danych.

Uwaga / Notatka

Podobną architekturę można zaimplementować przy użyciu usługi Microsoft Fabric, która udostępnia ujednoliconą platformę oprogramowania jako usługi (SaaS) na potrzeby pozyskiwania, przekształcania, magazynowania i analizy danych. W tym przypadku sieć szkieletowa zastępuje składniki usługi Azure Synapse Analytics architektury i zapewnia zintegrowane możliwości przetwarzania i analizy danych w czasie rzeczywistym. Aby uzyskać więcej informacji, zobacz Sieć szkieletowa Real-Time Intelligence.

Apache® i Apache Spark są zastrzeżonymi znakami towarowymi lub znakami towarowymi platformy Apache Software Foundation w Stanach Zjednoczonych i/lub innych krajach. Użycie tych znaków nie jest dorozumiane przez fundację Apache Software Foundation.

Architektura

Pobierz plik programu Visio tej architektury.

Przepływ danych

Przechwytywanie zmian danych (CDC) jest wymaganiem wstępnym dla systemów źródłowych do nasłuchiwania zmian. Łączniki debezium mogą łączyć się z różnymi systemami źródłowymi i korzystać ze zmian w miarę ich wprowadzania. Łączniki mogą przechwytywać zmiany i tworzyć zdarzenia z różnych systemów zarządzania relacyjnymi bazami danych (RDBMS). Zainstalowanie łącznika Debezium wymaga systemu platformy Kafka Connect.
Łączniki wyodrębniają dane zmian i wysyłają przechwycone zdarzenia do usługi Event Hubs. Usługa Event Hubs może odbierać duże ilości danych z wielu źródeł.
Usługa Event Hubs przesyła strumieniowo dane do pul platformy Spark usługi Azure Synapse Analytics lub wysyła dane do strefy docelowej usługi Data Lake Storage w formacie nieprzetworzonym.
Inne źródła danych wsadowych mogą używać potoków usługi Azure Synapse Analytics do kopiowania danych do usługi Data Lake Storage i udostępniania ich do przetwarzania. Pełny przepływ pracy wyodrębniania, przekształcania i ładowania (ETL) może wymagać łączenia różnych kroków lub dodawania zależności między krokami. Potoki usługi Azure Synapse Analytics mogą organizować zależności przepływu pracy w ramach ogólnej struktury przetwarzania.
Pule platformy Spark usługi Azure Synapse Analytics używają w pełni obsługiwanych interfejsów API przesyłania strumieniowego ze strukturą platformy Apache Spark do przetwarzania danych w strukturze przesyłania strumieniowego platformy Spark. Krok przetwarzania danych obejmuje kontrole jakości danych i weryfikacje reguł biznesowych wysokiego poziomu.
Usługa Data Lake Storage przechowuje zweryfikowane dane w otwartym formacie usługi Delta Lake . Usługa Delta Lake zapewnia niepodzielność, spójność, izolację i trwałość (ACID) semantyki i transakcji, skalowalną obsługę metadanych oraz ujednolicone przetwarzanie danych przesyłanych strumieniowo i wsadowych dla istniejących magazynów danych.

Używanie indeksów na potrzeby przyspieszania zapytań zwiększa wydajność usługi Delta Lake. Dane ze zweryfikowanej strefy usługi Data Lake Storage mogą być również źródłem dalszej zaawansowanej analizy i uczenia maszynowego.
Dane ze zweryfikowanej strefy usługi Data Lake Storage, przekształcone i wzbogacone o więcej reguł do końcowego przetworzonego stanu, są ładowane do dedykowanej puli SQL na potrzeby uruchamiania zapytań analitycznych na dużą skalę.
Usługa Power BI używa danych udostępnianych za pośrednictwem dedykowanej puli SQL do tworzenia pulpitów nawigacyjnych i raportów klasy korporacyjnej.
Przechwycone dane pierwotne można również użyć w usłudze Data Lake Store i zweryfikowanych danych w formacie delty dla następujących zadań:
- Nieplanowana i eksploracyjna analiza za pośrednictwem bezserwerowych pul SQL usługi Azure Synapse Analytics
- Trenowanie i wdrażanie modelu uczenia maszynowego za pomocą usługi Azure Machine Learning
W przypadku niektórych interfejsów o małych opóźnieniach dane muszą być zdenormalizowane w przypadku opóźnień serwera jednocyfrowego. Ten przypadek użycia dotyczy głównie odpowiedzi interfejsu API. Ten scenariusz wysyła zapytania do dokumentów w magazynie danych NoSQL, takim jak usługa Azure Cosmos DB, na potrzeby odpowiedzi z jedną cyfrą milisekund.
Strategia partycjonowania usługi Azure Cosmos DB może nie obsługiwać skutecznie wszystkich wzorców zapytań. Jeśli tak jest, możesz rozszerzyć rozwiązanie, indeksując dane, do których interfejsy API muszą uzyskiwać dostęp za pomocą usługi Azure AI Search. Usługi Azure Cosmos DB i AI Search mogą spełniać większość scenariuszy, które wymagają odpowiedzi na zapytania o małym opóźnieniu. Na przykład aplikacja detaliczna przechowuje dane katalogu produktów w usłudze Azure Cosmos DB, ale wymaga funkcji wyszukiwania pełnotekstowego i elastycznego indeksowania. Wyszukiwanie sztucznej inteligencji może indeksować dane i udostępniać zaawansowane funkcje wyszukiwania, takie jak autouzupełnianie, synonimy i klasyfikacja semantyczna. Te funkcje są przydatne, gdy ograniczenia indeksowania usługi Azure Cosmos DB ograniczają złożone scenariusze wyszukiwania.

Składniki

To rozwiązanie korzysta z następujących składników platformy Azure:

Event Hubs to zarządzana, rozproszona usługa pozyskiwania, która umożliwia skalowanie w celu pozyskiwania dużych ilości danych. Korzystając z mechanizmu wydawcy-subskrybenta usługi Event Hubs, różne aplikacje mogą wysyłać komunikaty do tematów usługi Event Hubs, a odbiorcy podrzędni mogą łączyć się z tymi komunikatami i przetwarzać je. Funkcja przechwytywania usługi Event Hubs może zapisywać komunikaty w usłudze Data Lake Storage w formacie Avro w miarę ich nadejścia. Ta możliwość umożliwia łatwe przetwarzanie mikrosadowe i scenariusze przechowywania długoterminowego. Usługa Event Hubs udostępnia również interfejs API zgodny z platformą Kafka i obsługuje rejestr schematów. W tej architekturze usługa Event Hubs odbiera zdarzenia CDC z wielu źródeł i dystrybuuje je do odbiorców podrzędnych.
Usługa Data Lake Storage to skalowalne i bezpieczne rozwiązanie data lake. Tworzy podsystem magazynowania, który przechowuje wszystkie dane w nieprzetworzonych i zweryfikowanych formatach. W tej architekturze usługa Data Lake Storage obsługuje transakcje na dużą skalę i obsługuje różne formaty i rozmiary plików. Hierarchiczne przestrzenie nazw pomagają organizować dane w znanej strukturze folderów i obsługiwać uprawnienia przenośnego interfejsu systemu operacyjnego dla systemu Unix (POSIX). Sterownik systemu plików obiektów blob platformy Azure (ABFS) udostępnia interfejs API zgodny z usługą Hadoop.
Azure Synapse Analytics to nieograniczona usługa analizy, która łączy integrację danych, magazynowanie danych przedsiębiorstwa i analizę danych big data. To rozwiązanie korzysta z następujących funkcji ekosystemu usługi Azure Synapse Analytics:
- Pule spark usługi Azure Synapse Analytics to klastry, które zapewniają środowisko uruchomieniowe platformy Spark na żądanie, które dodaje wbudowane ulepszenia wydajności platformy Spark typu open source. W tej architekturze klienci mogą konfigurować elastyczne ustawienia skalowania automatycznego, zdalnie przesyłać zadania za pośrednictwem punktu końcowego usługi Apache Livy i korzystać z interfejsu notesu programu Synapse Studio na potrzeby interaktywnych środowisk.
- Bezserwerowe pule SQL usługi Azure Synapse Analytics to funkcja zapytań na żądanie, która udostępnia interfejs do wykonywania zapytań dotyczących danych typu lakehouse przy użyciu znanej składni języka T-SQL. Nie ma infrastruktury do skonfigurowania, a wdrożenie obszaru roboczego usługi Azure Synapse Analytics automatycznie tworzy punkt końcowy. W tej architekturze bezserwerowe pule SQL usługi Azure Synapse Analytics umożliwiają podstawowe odnajdywanie i eksplorowanie danych na potrzeby nieplanowanej analizy zapytań.
- Dedykowane pule SQL usługi Azure Synapse Analytics są aprowizowane zasoby magazynowania danych. Przechowują dane w tabelach relacyjnych przy użyciu magazynu kolumnowego. W tej architekturze dedykowane pule SQL używają architektury skalowanej w poziomie do dystrybucji przetwarzania danych między wieloma węzłami. Zapytania polyBase przeprowadzą dane do tabel puli SQL. Tabele mogą łączyć się z usługą Power BI na potrzeby analizy i raportowania.
Power BI to usługa analizy biznesowej, która udostępnia interfejs wizualny umożliwiający tworzenie i uzyskiwanie dostępu do raportów i pulpitów nawigacyjnych. Program Power BI Desktop może łączyć się z różnymi źródłami danych, łączyć źródła w model danych i tworzyć raporty lub pulpity nawigacyjne. W tej architekturze możesz użyć usługi Power BI do przekształcania danych na podstawie wymagań biznesowych i udostępniania wizualizacji i raportów klientom.
Azure Cosmos DB to globalnie rozproszona usługa bazy danych NoSQL. To rozwiązanie używa usługi Azure Cosmos DB dla aplikacji, które wymagają jednocyfrowych milisekund odpowiedzi i wysokiej dostępności. Usługa Azure Cosmos DB zapewnia zapisy w wielu regionach we wszystkich regionach świadczenia usługi Azure.
Wyszukiwanie sztucznej inteligencji to oparta na sztucznej inteligencji platforma jako usługa (PaaS), która umożliwia deweloperom tworzenie zaawansowanych środowisk wyszukiwania dla swoich aplikacji i witryn internetowych. Użyj wyszukiwania sztucznej inteligencji w tym rozwiązaniu, gdy model indeksowania usługi Azure Cosmos DB jest zbyt sztywny w przypadku scenariuszy wyszukiwania zaawansowanego. Wyszukiwanie sztucznej inteligencji umożliwia elastyczne wykonywanie zapytań za pomocą funkcji, takich jak tolerancja literówek, autouzupełnianie, klasyfikacja semantyczna i dopasowywanie synonimów. Możesz wykonywać zapytania dotyczące indeksowanych danych przy użyciu interfejsu API REST lub zestawu .NET SDK. Jeśli musisz pobrać dane z wielu indeksów, możesz je skonsolidować w jeden indeks lub użyć złożonych typów danych do modelowania zagnieżdżonych struktur.

Szczegóły scenariusza

Kompleksowe przepływy pracy do przetwarzania zmian w czasie zbliżonym do rzeczywistego wymagają:

Technologia CDC. Aplikacje OLTP mogą mieć różne magazyny danych zaplecza, takie jak SQL Server, MySQL i Oracle. Pierwszym krokiem jest nasłuchiwanie zmian w miarę ich wprowadzania i propagowanie ich do przodu.
Bufor pozyskiwania do publikowania zdarzeń zmiany na dużą skalę. Ta usługa powinna mieć możliwość obsługi dużych ilości danych w miarę nadejścia komunikatów. Indywidualni subskrybenci mogą łączyć się z tym systemem i przetwarzać dane.
Rozproszony i skalowalny magazyn danych w formacie nieprzetworzonym.
Rozproszony, wydajny system przetwarzania strumieniowego, który umożliwia użytkownikom ponowne uruchamianie stanu i zarządzanie nim.
System analityczny, który działa na dużą skalę do podejmowania decyzji biznesowych.
Samoobsługowy interfejs analityczny.
W przypadku odpowiedzi interfejsu API o małych opóźnieniach baza danych NoSQL do przechowywania zdenormalizowanych reprezentacji danych.
W niektórych przypadkach system indeksowania danych, odświeżania indeksu w regularnych odstępach czasu i udostępniania najnowszych danych do użycia podrzędnego.

Wszystkie powyższe technologie powinny używać odpowiednich konstrukcji zabezpieczeń na potrzeby zabezpieczeń obwodowych, uwierzytelniania, autoryzacji i szyfrowania danych.

Potencjalne przypadki użycia

To rozwiązanie odpowiada następującym przypadkom użycia:

Branże, które muszą propagować zmiany z OLTP do przetwarzania analizy online (OLAP).
Aplikacje, które wymagają przekształcania lub wzbogacania danych.

Scenariusz przetwarzania danych w czasie rzeczywistym jest szczególnie ważny w branży usług finansowych. Jeśli na przykład ubezpieczenie, karta kredytowa lub klient bankowy dokonuje płatności, a następnie natychmiast kontaktuje się z działem obsługi klienta, agent pomocy technicznej klienta musi mieć najnowsze informacje.

Podobne scenariusze dotyczą sektorów handlu detalicznego, handlu i opieki zdrowotnej. Włączenie tych scenariuszy usprawnia operacje i prowadzi do zwiększenia produktywności organizacji i zwiększenia zadowolenia klientów.

Kwestie wymagające rozważenia

Te zagadnienia obejmują implementację filarów platformy Azure Well-Architected Framework, która jest zestawem wytycznych, których można użyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Well-Architected Framework.

Niezawodność

Niezawodność pomaga zapewnić, że aplikacja może spełnić zobowiązania podjęte przez klientów. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca niezawodności.

Usługa Event Hubs zapewnia 90-dniowe przechowywanie danych w warstwach Premium i dedykowanych. W przypadku scenariuszy trybu failover można skonfigurować pomocniczą przestrzeń nazw w sparowanym regionie i aktywować ją podczas pracy w trybie failover. Włącz nadmiarowość stref, aby zapewnić odporność na awarie centrum danych. Funkcja przechwytywania usługi Event Hubs umożliwia utrwalanie danych w usłudze Data Lake Storage na potrzeby scenariuszy odtwarzania i odzyskiwania.
Zadania puli platformy Spark usługi Azure Synapse Analytics są przetwarzane co siedem dni, ponieważ węzły są wyłączane do konserwacji. Rozważ to działanie podczas pracy z umowami dotyczącymi poziomu usług (SLA) powiązanymi z systemem. To ograniczenie nie jest problemem w wielu scenariuszach, w których cel czasu odzyskiwania (RTO) wynosi około 15 minut. Upewnij się, że skalowanie automatyczne jest skonfigurowane do obsługi skoków obciążenia i błędów węzłów.
Użyj dedykowanych pul SQL, które mają geograficzną kopię zapasową i magazyn strefowo nadmiarowy (ZRS), aby chronić przed awariami regionalnymi i strefowymi.

Optymalizacja kosztów

Optymalizacja kosztów koncentruje się na sposobach zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca optymalizacji kosztów.

Możesz wybrać różne warstwy usługi Event Hubs na podstawie właściwości obciążenia. Rachunki za usługę Event Hubs przechwytują magazyn oddzielnie na podstawie ilości danych przechowywanych w usłudze Data Lake Storage.
Rozważ zarządzanie cyklem życia obiektów za pośrednictwem warstw w usłudze Data Lake Storage. W miarę starzenia się danych można przenosić dane z warstwy Gorąca, w której trzeba uzyskać dostęp do najnowszych danych na potrzeby analizy, do warstwy magazynowania zimnego, która kosztuje mniej. Warstwa magazynowania zimnego to ekonomiczna opcja długoterminowego przechowywania.
Możesz wstrzymać dedykowaną pulę SQL, jeśli nie używasz jej w środowiskach deweloperskich ani testowych. Skrypt można zaplanować, aby wstrzymać pulę zgodnie z potrzebami lub ręcznie wstrzymać pulę za pośrednictwem portalu.
W przypadku pul platformy Spark usługi Azure Synapse Analytics użyj skalowania automatycznego, aby dynamicznie przydzielać zasoby na podstawie zapotrzebowania na obciążenie i unikać nadmiernej aprowizacji. Wybierz najmniejszy rozmiar puli spełniający wymagania dotyczące wydajności i użyj ustawień automatycznego kończenia, aby szybko zamknąć bezczynne pule. Zoptymalizuj zadania platformy Spark, minimalizując operacje mieszania, buforując wyniki pośrednie i dostrajając rozmiary partycji, aby skrócić czas wykonywania i zużycie zasobów. Monitorowanie użycia przy użyciu narzędzi do monitorowania usługi Azure Synapse Analytics i dostosowywanie konfiguracji na podstawie wydajności zadań i trendów kosztów.
Aby zoptymalizować efektywność kosztową w usłudze Azure Cosmos DB, dostosuj zasady indeksowania tak, aby obejmowały tylko niezbędne ścieżki, co zmniejsza zużycie magazynu i jednostki żądań (RU). Wybierz odpowiedni interfejs API i poziom spójności, aby dopasować je do potrzeb obciążeń bez nadmiernej aprowizacji. Użyj przepływności autoskalowania, aby dynamicznie dostosować jednostki RU na podstawie zapotrzebowania i skonsolidować obciążenia w mniejszej liczbie kontenerów, gdy jest to możliwe, aby zminimalizować obciążenie. Regularnie monitoruj użycie przy użyciu usługi Microsoft Cost Management i ustawiaj alerty, aby uniknąć nieoczekiwanych opłat.
Skorzystaj z kalkulatora cen platformy Azure , aby oszacować cennik.

Efektywność operacyjna

Wydajność odnosi się do możliwości skalowania obciążenia w celu efektywnego zaspokojenia wymagań użytkowników. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu pod kątem wydajności.

Usługi Event Hubs można skalować za pomocą partycjonowania, które dystrybuuje zdarzenia w wielu dziennikach równoległych (partycjach), aby zwiększyć przepływność. Aby zachować kolejność powiązanych zdarzeń, takich jak zdarzenia od tego samego klienta lub urządzenia, użyj spójnego klucza partycji podczas publikowania zdarzeń. Dzięki temu wszystkie powiązane zdarzenia są kierowane do tej samej partycji, w której usługa Event Hubs utrzymuje ich kolejność. Dostrajanie jednostek przepływności (TU) na podstawie oczekiwanego woluminu zdarzeń. Funkcja przechwytywania umożliwia zapisywanie bezpośrednio w usłudze Data Lake Storage w formacie Avro lub Parquet w celu wydajnego przetwarzania podrzędnego.
Pule platformy Spark usługi Azure Synapse Analytics można skonfigurować przy użyciu małych, średnich lub dużych jednostek SKU maszyn wirtualnych na podstawie obciążenia. Możesz również skonfigurować skalowanie automatyczne w pulach platformy Spark usługi Azure Synapse Analytics, aby uwzględnić skoki aktywności obciążeń. Jeśli potrzebujesz więcej zasobów obliczeniowych, klastry są automatycznie skalowane w górę, aby zaspokoić zapotrzebowanie i skalować w dół po zakończeniu przetwarzania.
Usługa Delta Lake odgrywa kluczową rolę w zapewnianiu wysokiej wydajności, niezawodnego i skalowalnego przetwarzania danych w tej architekturze:
- Włącz funkcje automatycznego optymalizowania i automatycznego kompaktowania w usłudze Delta Lake, aby automatycznie zarządzać małymi plikami i optymalizować układ danych podczas operacji zapisu. Te funkcje są idealne w scenariuszach przesyłania strumieniowego lub częstego pozyskiwania mikrosadowego, ponieważ zmniejszają potrzebę ręcznej interwencji.
- Użyj OPTIMIZE polecenia , aby ręcznie skompaktować małe pliki w większe. Ta praktyka jest szczególnie przydatna, gdy chcesz zwiększyć wydajność odczytu i zmniejszyć obciążenie metadanych po pozyskiwaniu przesyłania strumieniowego tworzy wiele małych plików.
- Do kolokowania powiązanych danych należy używać elementu OPTIMIZE z elementami ZORDER BY dla często zapytanych kolumn, takich jak znaczniki czasu lub identyfikatory klientów. To zapytanie poprawia wydajność zapytań, zmniejszając ilość danych skanowanych podczas odczytu.
Aby zoptymalizować wydajność w dedykowanych pulach SQL na potrzeby analizy niemal w czasie rzeczywistym, wykonaj następujące zadania:
- Użyj odpowiednich metod dystrybucji, takich jak skrót, działanie okrężne, zreplikowane metody.
- Partycjonowanie dużych tabel według czasu lub regionu w celu ulepszenia oczyszczania zapytań.
- Użyj zmaterializowanych widoków i buforowania zestawu wyników dla często używanych danych.
- Obsługa up-to— statystyki daty i indeksy w celu wydajnego uruchamiania zapytań.
- Przypisz klasy zasobów do zarządzania pamięcią i współbieżnością.
- Monitorowanie wydajności przy użyciu wbudowanych narzędzi, takich jak SQL Insights i dynamiczne widoki zarządzania (DMV).
Te rozwiązania pomagają zapewnić małe opóźnienia, wysoką przepływność w obciążeniach analitycznych na dużą skalę.
Aby zoptymalizować usługę Azure Cosmos DB pod kątem wydajności w scenariuszach analizy w czasie rzeczywistym, skonfiguruj odpowiednie zasady indeksowania, aby zmniejszyć opóźnienia zapytań i obciążenie magazynu, a następnie wybrać odpowiedni poziom spójności, aby zrównoważyć wydajność z dokładnością danych. Efektywnie używaj partycjonowania, aby równomiernie dystrybuować obciążenia i unikać gorących partycji. Włącz operacje zapisu w wielu regionach dla globalnego dostępu o małych opóźnieniach i monitoruj przepływność przy użyciu jednostek RU w celu dynamicznego skalowania na podstawie zapotrzebowania. Te rozwiązania ułatwiają zapewnienie dynamicznej, skalowalnej wydajności w przypadku obciążeń o wysokim opóźnieniu i pozyskiwania.

Współautorzy

Firma Microsoft utrzymuje ten artykuł. Następujący współautorzy napisali ten artykuł.

Główny autor:

Pratima Valavala | Architekt rozwiązań w chmurze

Inny współautor:

Rajesh Mittal | Architekt rozwiązań w chmurze

Aby wyświetlić niepubliczne profile serwisu LinkedIn, zaloguj się do serwisu LinkedIn.

Następne kroki

Sprzężenie zwrotne

Czy ta strona była pomocna?