Replikowanie i synchronizowanie danych komputera mainframe z platformą Azure

Azure Data Factory

Azure Databricks

Ta przykładowa architektura przedstawia plan implementacji replikacji i synchronizacji danych podczas modernizacji na platformie Azure. Opisuje aspekty techniczne, takie jak magazyny danych, narzędzia i usługi.

Architektura

Pobierz plik programu Visio tej architektury.

Workflow

Poniższy przepływ pracy odpowiada poprzedniemu diagramowi:

Systemy mainframe i średniej klasy aktualizują lokalne bazy danych aplikacji w regularnych odstępach czasu. Aby zachować spójność, to rozwiązanie synchronizuje najnowsze dane z bazami danych platformy Azure. Proces synchronizacji obejmuje następujące kroki.

Potoki dynamiczne usługi Azure Data Factory organizują działania, które obejmują zarówno wyodrębnianie danych, jak ładowanie danych. Możesz zaplanować działania potoku, uruchomić je ręcznie lub wyzwolić je automatycznie.

Potoki grupują działania, które wykonują zadania. Aby wyodrębnić dane, Azure Data Factory dynamicznie tworzy jeden potok dla każdej tabeli lokalnej. Następnie możesz użyć implementacji masowo równoległej podczas replikowania danych na platformie Azure. Możesz również skonfigurować rozwiązanie tak, aby spełniało Twoje wymagania:
- Pełna replikacja: Replikujesz całą bazę danych i wprowadzasz niezbędne modyfikacje typów danych i pól w docelowej bazie danych platformy Azure.
- Replikacja częściowa, różnicowa lub przyrostowa: Kolumny ze znakiem wodnym w tabelach źródłowych służą do synchronizowania zaktualizowanych wierszy z bazami danych platformy Azure. Te kolumny zawierają klucz stale rosnący lub sygnaturę czasową wskazującą ostatnią aktualizację tabeli.
Azure Data Factory używa również potoków do następujących zadań przekształcania:
- Konwersja typu danych
- Manipulacja danymi
- Formatowanie danych
- Wyprowadzenie kolumny
- Spłaszczanie danych
- Sortowanie danych
- Filtrowanie danych
Lokalne bazy danych, takie jak Db2 zOS, Db2 for i i Db2 LUW, przechowują dane aplikacji.
Własne środowisko Integration Runtime (IR) zapewnia środowisko używane przez Azure Data Factory do uruchamiania i wysyłania działań.
Azure Data Lake Storage Gen2 i Azure Blob Storage przygotowują dane. Ten krok jest czasami wymagany do przekształcania i scalania danych z wielu źródeł.
Na potrzeby przygotowywania danych Azure Data Factory używa usługi Azure Databricks, działań niestandardowych i przepływów danych potoku w celu szybkiego i efektywnego przekształcania danych.
Azure Data Factory ładuje dane do następujących relacyjnych i nierelacyjnych baz danych platformy Azure:
- Azure SQL
- Azure Database for PostgreSQL
- Azure Cosmos DB
- Azure Data Lake Storage
- Azure Database for MySQL
Usługi SQL Server Integration Services (SSIS) wyodrębniają, przekształcają i ładują dane.
Lokalna brama danych to lokalnie zainstalowana aplikacja kliencka systemu Windows, która działa jako pomost między lokalnymi lokalnymi źródłami danych a usługami platformy Azure.
Potok danych w usłudze Microsoft Fabric to logiczne grupowanie działań, które wykonują pozyskiwanie danych z bazy danych Db2 do usługi Azure Storage i baz danych.
Jeśli rozwiązanie wymaga replikacji niemal w czasie rzeczywistym, możesz użyć narzędzi firm innych niż Microsoft.

Komponenty

W tej sekcji opisano inne narzędzia, których można używać podczas modernizacji, synchronizacji i integracji danych.

Integratorzy danych

Azure Data Factory to hybrydowa usługa integracji danych. Za pomocą tego w pełni zarządzanego, bezserwerowego rozwiązania można tworzyć, planować i organizować przepływy pracy wyodrębniania, przekształcania i ładowania (ETL) oraz przepływów pracy wyodrębniania, ładowania i przekształcania (ELT).
Azure Synapse Analytics to usługa do analizy przedsiębiorstwa, która skraca czas wglądu w magazyny danych i systemy danych big data. Azure Synapse Analytics łączy najlepsze z następujących technologii i usług:
- Technologie SQL dla hurtowni danych w przedsiębiorstwie
- Technologie Spark dla danych big data
- Usługa Azure Data Explorer do analizy dzienników i szeregów czasowych
- Usługa Azure Pipelines do integracji danych oraz przepływów pracy ETL i ELT
- Głęboka integracja z innymi usługami platformy Azure, takimi jak Power BI, Azure Cosmos DB i Azure Machine Learning
SSIS to platforma do tworzenia rozwiązań do integracji i transformacji danych na poziomie przedsiębiorstwa. Za pomocą usług SSIS można zarządzać danymi, replikować, czyścić i wydobywać je.
Azure Databricks to platforma analizy danych. Jest ona oparta na rozproszonym systemie przetwarzania typu open source Apache Spark i jest zoptymalizowana pod kątem platformy w chmurze Azure. W przepływie pracy analizy usługa Azure Databricks odczytuje dane z wielu źródeł i używa platformy Spark do dostarczania szczegółowych informacji.

Magazyn danych

Azure SQL Database jest częścią rodziny Azure SQL i jest utworzony dla chmury. Ta usługa zapewnia korzyści płynące z w pełni zarządzanej i wiecznie zielonej platformy jako usługi (PaaS). SQL Database zapewnia również zautomatyzowane funkcje oparte na sztucznej inteligencji, które optymalizują wydajność i trwałość. Opcje bezserwerowych zasobów obliczeniowych i magazynu w warstwie Hiperskala automatycznie skalują zasoby na żądanie.
Usługa Azure SQL Managed Instance jest częścią portfolio usług Azure SQL. Ta inteligentna i skalowalna usługa bazy danych w chmurze łączy w sobie najszerszą zgodność z aparatem SQL Server ze wszystkimi zaletami w pełni zarządzanej i zawsze nowoczesnej usługi PaaS. Użyj SQL Managed Instance, aby zmodernizować istniejące aplikacje na dużą skalę.
Program SQL Server w usłudze Azure Virtual Machines umożliwia przenoszenie obciążeń programu SQL Server metodą "lift-and" do chmury z pełną zgodnością kodu. W ramach rodziny Azure SQL program SQL Server w usłudze Azure Virtual Machines zapewnia połączoną wydajność, zabezpieczenia i analizę programu SQL Server z elastycznością i łącznością hybrydową platformy Azure. Użyj SQL Server w usłudze Azure Virtual Machines, aby migrować istniejące aplikacje lub tworzyć nowe aplikacje. Możesz również uzyskać dostęp do najnowszych aktualizacji i wydań SQL Server, w tym SQL Server 2019.
Azure Database for PostgreSQL to w pełni zarządzana usługa relacyjnej bazy danych oparta na wersji Community aparatu bazy danych PostgreSQL typu open source. Skorzystaj z tej usługi, aby skupić się na innowacjach w aplikacjach, a nie na zarządzaniu bazami danych. Możesz również skalować obciążenie zgodnie z potrzebami.
Azure Cosmos DB to globalnie rozproszona, wielomodelowa baza danych. Użyj usługi Azure Cosmos DB, aby upewnić się, że rozwiązania mogą elastycznie i niezależnie skalować przepływność i magazyn w dowolnej liczbie regionów geograficznych. Ta w pełni zarządzana usługa bazy danych NoSQL gwarantuje jednocyfrowe, milisekundowe opóźnienia na poziomie dziewięćdziesiątego dziewiątego percentyla w dowolnym miejscu na świecie.
Data Lake Storage to repozytorium magazynu, które przechowuje dużą ilość danych w natywnym, nieprzetworzonym formacie. Magazyny data lake są zoptymalizowane pod kątem skalowania do terabajtów i petabajtów danych. Dane zazwyczaj pochodzą z wielu, niejednorodnych źródeł i mogą być ustrukturyzowane, częściowo ustrukturyzowane lub nieustrukturyzowane. Data Lake Storage Gen2 łączy możliwości Data Lake Storage Gen1 z usługą Blob Storage. To rozwiązanie typu data lake nowej generacji zapewnia semantykę systemu plików, zabezpieczenia na poziomie plików i skalowalność. Zapewnia również magazyn warstwowy, wysoką dostępność i możliwości odzyskiwania po awarii usługi Blob Storage.
Microsoft Fabric to gotowa do użycia platforma do analizy w przedsiębiorstwie. Łączy przenoszenie danych, przetwarzanie danych, pozyskiwanie, przekształcanie, routing zdarzeń w czasie rzeczywistym i tworzenie raportów. Obsługuje te możliwości przy użyciu zintegrowanych usług, takich jak Fabric Data Engineer, Fabric Data Factory, Fabric Data Science, Fabric Real-Time Intelligence, Fabric Data Warehouse i Fabric Databases.
Azure Database for MySQL to w pełni zarządzana usługa relacyjnej bazy danych oparta na wersji Community aparatu bazy danych MySQL typu open source.

Inne narzędzia

Architektura rozproszonej relacyjnej bazy danych (DRDA) firmy Microsoft jest składnikiem programu Host Integration Server. Microsoft Service for DRDA to serwer aplikacji używany przez klientów DRDA Application Requester (AR). Przykładami klientów DRDA AR są IBM Db2 for z/OS i Db2 for i5/OS. Klienci ci używają serwera aplikacji do konwertowania instrukcji SQL Db2 i uruchamiania ich w programie SQL Server.
Program SQL Server Migration Assistant dla bazy danych Db2 automatyzuje migrację z bazy danych Db2 do usług baz danych firmy Microsoft. To narzędzie działa na maszynie wirtualnej. Konwertuje obiekty bazy danych Db2 na obiekty bazy danych SQL Server i tworzy te obiekty w języku SQL.

Szczegóły scenariusza

Dostępność i integralność danych mają zasadnicze znaczenie dla modernizacji komputerów mainframe i średniej klasy. Strategie oparte na danych pomagają zachować dane w stanie nienaruszonym i dostępnym podczas migracji na platformę Azure. Aby zapobiec zakłóceniom podczas modernizacji, czasami trzeba szybko replikować dane lub synchronizować dane lokalne z bazami danych platformy Azure.

To rozwiązanie obejmuje w szczególności:

Wyodrębnianie: nawiązywanie połączenia ze źródłową bazą danych i wyodrębnianie danych z niej.
Przekształcenie:
- Przemieszczanie: Tymczasowo przechowuj dane w ich oryginalnym formacie i przygotuj je do przekształcenia.
- Przygotowanie: przekształcanie danych i manipulowanie nimi przy użyciu reguł mapowania, które spełniają wymagania docelowej bazy danych.
Ładowanie: Wstawianie danych do docelowej bazy danych.

Potencjalne przypadki użycia

Scenariusze replikacji i synchronizacji danych, które mogą korzystać z tego rozwiązania, obejmują:

Odpowiedzialność za zapytania poleceń Architektury segregacji, które używają platformy Azure do obsługi wszystkich kanałów zapytań.
Środowiska, które równolegle testują aplikacje lokalne i ponownie hostowane lub przeprojektowane aplikacje.
Systemy lokalne, które mają ściśle sprzężone aplikacje, które wymagają etapowego korygowania lub modernizacji.

Rekomendacje

Poniższe zalecenia można zastosować do większości scenariuszy. Należy się do nich stosować, jeśli nie ma konkretnych wymagań, które byłyby z nimi sprzeczne.

W przypadku wyodrębniania danych za pomocą Azure Data Factory wykonaj kroki, aby dostosować wydajność działania kopiowania.

Rozważania

Te zagadnienia implementują filary platformy Azure Well-Architected Framework, która jest zestawem wytycznych, których można użyć do poprawy jakości obciążenia. Aby uzyskać więcej informacji, zobacz Microsoft Azure Well-Architected Framework.

Niezawodność

Niezawodność pomaga zapewnić, że aplikacja może spełnić zobowiązania podjęte przez klientów. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca niezawodności.

Zarządzanie infrastrukturą, w tym dostępność, jest zautomatyzowane w bazach danych platformy Azure.
Aby uzyskać informacje o usłudze firmy Microsoft służącej do ochrony przed przełączaniem awaryjnym DRDA, zobacz Buforowanie i tryb failover.
Możesz klastrować lokalną bramę danych i środowisko IR, aby zapewnić wyższe gwarancje dostępności.

Zabezpieczenia

Zabezpieczenia zapewniają ochronę przed celowymi atakami i nieprawidłowym użyciem cennych danych i systemów. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca zabezpieczeń.

Użyj sieciowych grup zabezpieczeń , aby ograniczyć dostęp tylko do niezbędnych funkcji dla każdej usługi.
Używanie prywatnych punktów końcowych dla usług PaaS. Korzystaj z zapór usług, które są zarówno osiągalne, jak i nieosiągalne przez Internet, aby uzupełnić zabezpieczenia usług.
Używanie tożsamości zarządzanych dla przepływów danych między składnikami.
Aby uzyskać informacje o typach połączeń klienckich obsługiwanych przez usługę Microsoft Service for DRDA, zobacz Planowanie i tworzenie architektury rozwiązań przy użyciu usługi Microsoft Service for DRDA. Połączenia klienckie mają wpływ na charakter transakcji, buforowania, pracy awaryjnej, uwierzytelniania i szyfrowania w sieci.

Optymalizacja kosztów

Optymalizacja kosztów koncentruje się na sposobach zmniejszenia niepotrzebnych wydatków i poprawy wydajności operacyjnej. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu dotycząca optymalizacji kosztów.

Modele cenowe różnią się w zależności od usług składowych. Zapoznaj się z modelami cenowymi dostępnych usług składowych, aby upewnić się, że mieszczą się one w Twoim budżecie.
Skorzystaj z kalkulatora cen platformy Azure, aby oszacować koszt wdrożenia tego rozwiązania.

Doskonałość operacyjna

Doskonałość operacyjna obejmuje procesy operacyjne, które wdrażają aplikację i działają w środowisku produkcyjnym. Aby uzyskać więcej informacji, zobacz Lista kontrolna projektu dotycząca doskonałości operacyjnej.

Zarządzanie infrastrukturą, w tym skalowalność, jest zautomatyzowane w bazach danych platformy Azure.
Własne środowisko IR można skalować w poziomie , kojarząc wystąpienie logiczne z wieloma maszynami lokalnymi w trybie aktywny-aktywny.

Efektywność operacyjna

Wydajność odnosi się do możliwości skalowania obciążenia w celu efektywnego zaspokojenia wymagań użytkowników. Aby uzyskać więcej informacji, zobacz Lista kontrolna przeglądu projektu pod kątem wydajności.

Rozważ usługę Azure ExpressRoute jako opcję o dużej skali, jeśli implementacja używa znacznej przepustowości do replikacji początkowej lub trwającej replikacji zmienionych danych.
Wybierz odpowiednią konfigurację IR dla swojego scenariusza.

Dalsze kroki

Aby uzyskać więcej informacji, skontaktuj się z Azure Data Engineering — modernizacja lokalna .
Przeczytaj przewodnik po migracji.

Sprzężenie zwrotne

Czy ta strona była pomocna?