Partager via


Répliquer et synchroniser les données mainframe vers Azure

Azure Data Factory
Azure Databricks

Cet exemple d’architecture décrit un plan d’implémentation pour répliquer et synchroniser les données lors de la modernisation vers Azure. Il décrit les aspects techniques tels que les magasins de données, les outils et les services.

Architecture

Diagramme d’architecture qui montre comment synchroniser les données locales et les données des bases de données Azure lors de la modernisation du mainframe.

Le diagramme montre le flux de données à partir de sources Db2 via des pipelines Azure Data Factory vers le stockage de données, l’analytique et les services de BI sur Azure. Le diagramme comporte deux zones, l’une pour les composants locaux et l’autre pour les composants Azure. La zone locale comporte deux rectangles. Un rectangle affiche les bases de données, telles que Db2 zOS et Db2 LUW. Une flèche pointe de ces bases de données vers le deuxième rectangle, qui répertorie les outils d’intégration. Des flèches pointent de chaque outil d’intégration vers un composant dans la section Azure. Le runtime d’intégration auto-hébergé pointe vers une zone intitulée « Pipeline dynamique ». Cette zone contient un pipeline parent et trois pipelines enfants. Une flèche pointe à partir de ces pipelines vers une boîte intitulée « Stockage de données, analyses et BI ». Cette boîte contient des services Azure tels qu’Azure SQL Database, Azure Cosmos DB et Stockage Blob Azure. Des flèches pointillées à deux côtés connectent le chemin d’accès du pipeline dynamique à Azure Data Lake Storage Gen2 et Azure Databricks. Les flèches pointent des services d’intégration SQL Server locaux et des outils non Microsoft vers la zone intitulée « Stockage de données, analytique et BI » dans la section Azure. L’outil d’intégration de passerelle de données locale pointe vers un pipeline de données dans Fabric Data Factory. Une flèche pointe à partir de ce pipeline vers la zone « Stockage de données, analyses et BI ».

Téléchargez un fichier Visio de cette architecture.

Flux de travail

Le workflow suivant correspond au diagramme précédent :

Les systèmes mainframe et milieu de gamme mettent à jour les bases de données d’applications locales à intervalles réguliers. Pour maintenir la cohérence, cette solution synchronise les données les plus récentes avec les bases de données Azure. Le processus de synchronisation comprend les étapes suivantes.

  1. Les pipelines dynamiques Azure Data Factory orchestrent des activités allant de l’extraction à la charge des données. Vous pouvez planifier des activités de pipeline, les démarrer manuellement ou les déclencher automatiquement.

    Les pipelines regroupent les activités qui effectuent des tâches. Pour extraire des données, Azure Data Factory crée dynamiquement un pipeline pour chaque table locale. Vous pouvez ensuite utiliser une implémentation massivement parallèle lorsque vous répliquez des données dans Azure. Vous pouvez également configurer la solution pour répondre à vos besoins :

    • Réplication complète : Vous répliquez l’intégralité de la base de données et apportez les modifications nécessaires aux types de données et aux champs de la base de données Azure cible.

    • Réplication partielle, delta ou incrémentielle : Vous utilisez des colonnes de filigrane dans les tables sources pour synchroniser les lignes mises à jour avec les bases de données Azure. Ces colonnes contiennent soit une clé à incrémentation continue, soit un horodatage qui indique la dernière mise à jour de la table.

    Azure Data Factory utilise également des pipelines pour les tâches de transformation suivantes :

    • Conversion de type de données
    • Manipulation des données
    • Mise en forme des données
    • Dérivation de colonne
    • Aplatissement des données
    • Tri des données
    • Filtrage des données
  2. Les bases de données locales telles que Db2 zOS, Db2 for i et Db2 LUW stockent les données de l’application.

  3. Un runtime d’intégration auto-hébergé fournit l’environnement qu’Azure Data Factory utilise pour exécuter et distribuer des activités.

  4. Azure Data Lake Storage Gen2 et Azure Blob Storage préparent les données. Cette étape est parfois nécessaire pour transformer et fusionner des données provenant de plusieurs sources.

  5. Pour la préparation des données, Azure Data Factory utilise Azure Databricks, des activités personnalisées et des flux de données de pipeline pour transformer les données rapidement et efficacement.

  6. Azure Data Factory charge les données dans les bases de données Azure relationnelles et non relationnelles suivantes :

    • Azure SQL
    • Base de données Azure pour PostgreSQL
    • Base de données Azure Cosmos DB
    • Azure Data Lake Storage
    • Azure Database pour MySQL
  7. SQL Server Integration Services (SSIS) extrait, transforme et charge les données.

  8. La passerelle de données locale est une application cliente Windows installée localement qui agit comme un pont entre vos sources de données locales locales et les services Azure.

  9. Un pipeline de données dans Microsoft Fabric est un regroupement logique d’activités qui effectuent l’ingestion de données à partir de Db2 vers le stockage et les bases de données Azure.

  10. Si la solution nécessite une réplication en temps quasi réel, vous pouvez utiliser des outils non Microsoft.

Composants

Cette section décrit d’autres outils que vous pouvez utiliser lors de la modernisation, de la synchronisation et de l’intégration des données.

Intégrateurs de données

  • azure Data Factory est un service d’intégration de données hybride. Vous pouvez utiliser cette solution sans serveur entièrement gérée pour créer, planifier et orchestrer des flux de travail d’extraction, de transformation et de chargement (ETL) et des flux de travail d’extraction, de chargement et de transformation (ELT).

  • Azure Synapse Analytics est un service d’analyse pour entreprise qui raccourcit le délai d’obtention d’analyses sur l’ensemble des entrepôts de données et des systèmes Big Data. Azure Synapse Analytics combine le meilleur des technologies et services suivants :

    • Technologies SQL pour l’entreposage de données d’entreprise

    • Technologies Spark pour le Big Data

    • Azure Data Explorer pour l’analyse des journaux et des séries chronologiques

    • Azure Pipelines pour l’intégration de données et les flux de travail ETL et ELT

    • Intégration profonde avec d’autres services Azure, tels que Power BI, Azure Cosmos DB et Azure Machine Learning

  • SSIS est une plateforme permettant de créer des solutions d’intégration et de transformation des données au niveau de l’entreprise. Vous pouvez utiliser SSIS pour gérer, répliquer, nettoyer et exploiter des données.

  • Azure Databricks est une plateforme d’analyse de données. Il est basé sur le système de traitement distribué open source Apache Spark et est optimisé pour la plateforme cloud Azure. Dans un flux de travail analytique, Azure Databricks lit des données provenant de plusieurs sources et utilise Spark pour fournir des informations.

Stockage de données

  • Azure SQL Database fait partie de la famille Azure SQL et est conçu pour le cloud. Ce service offre les avantages d’une plateforme en tant que service (PaaS) entièrement gérée et évolutive. SQL Database fournit également des fonctionnalités automatisées alimentées par l’IA qui optimisent les performances et la durabilité. Les options de calcul sans serveur et de stockage hyperscale mettent automatiquement à l’échelle les ressources à la demande.

  • Azure SQL Managed Instance fait partie du portefeuille de services Azure SQL. Ce service de base de données cloud intelligent et évolutif combine la compatibilité la plus large du moteur SQL Server avec tous les avantages d’un PaaS entièrement géré et évolutif. Utilisez SQL Managed Instance pour moderniser les applications existantes à grande échelle.

  • SQL Server sur des machines virtuelles Azure permet de transférer des charges de travail SQL Server vers le cloud avec une compatibilité de code complète. Dans le cadre de la famille Azure SQL, SQL Server sur les machines virtuelles Azure offre les performances, la sécurité et l’analytique combinées de SQL Server avec la flexibilité et la connectivité hybride d’Azure. Utilisez SQL Server sur des machines virtuelles Azure pour migrer des applications existantes ou en créer de nouvelles. Vous pouvez également accéder aux dernières mises à jour et versions de SQL Server, y compris SQL Server 2019.

  • Azure Database pour PostgreSQL est un service de base de données relationnelle entièrement managé basé sur l’édition communautaire du moteur de base de données open source PostgreSQL . Utilisez ce service pour vous concentrer sur l’innovation des applications plutôt que sur la gestion des bases de données. Vous pouvez également mettre à l’échelle votre charge de travail en fonction des besoins.

  • Azure Cosmos DB est une base de données multi-modèles distribuée à l’échelle mondiale. Utilisez Azure Cosmos DB pour vous assurer que vos solutions peuvent mettre à l’échelle le débit et le stockage de manière élastique et indépendante sur un nombre illimité de régions géographiques. Ce service de base de données NoSQL entièrement géré garantit des latences à un chiffre, de l’ordre de la milliseconde, au quatre-vingt-dix-neuvième centile, partout dans le monde.

  • Data Lake Storage est un référentiel de stockage qui contient une grande quantité de données dans leur format natif et brut. Les magasins Data Lake sont optimisés pour la mise à l’échelle vers les téraoctets et les pétaoctets de données. Les données proviennent généralement de sources multiples et hétérogènes et peuvent être structurées, semi-structurées ou non structurées. Data Lake Storage Gen2 combine les fonctionnalités de Data Lake Storage Gen1 avec le stockage Blob. Cette solution de lac de données de nouvelle génération offre une sémantique de système de fichiers, une sécurité au niveau des fichiers et une évolutivité. Il fournit également les fonctionnalités de stockage hiérarchisé, de haute disponibilité et de récupération d’urgence du Stockage Blob.

  • Microsoft Fabric est une plateforme d’analytique de bout en bout prête pour l’entreprise. Il unifie le déplacement des données, le traitement des données, l’ingestion, la transformation, le routage des événements en temps réel et la génération de rapports. Il prend en charge ces fonctionnalités à l’aide de services intégrés tels que Fabric Data Engineer, Fabric Data Factory, Fabric Data Science, Fabric Real-Time Intelligence, Fabric Data Warehouse et Fabric Databases.

  • Azure Database pour MySQL est un service de base de données relationnelle entièrement managé basé sur l’édition communautaire du moteur de base de données MySQL open source.

Autres outils

  • Le service Microsoft DRDA (Distributed Relational Database Architecture) est un composant du serveur d’intégration hôte. Microsoft Service for DRDA est un serveur d’applications utilisé par les clients DRDA Application Requester (AR). Parmi les exemples de clients DRDA AR, citons IBM Db2 pour z/OS et Db2 pour i5/OS. Ces clients utilisent le serveur d’applications pour convertir des instructions SQL Db2 et les exécuter sur SQL Server.

  • L’Assistant Migration SQL Server pour Db2 automatise la migration de Db2 vers les services de base de données Microsoft. Cet outil s’exécute sur une machine virtuelle. Il convertit les objets de base de données Db2 en objets de base de données SQL Server et crée ces objets en SQL.

Détails du scénario

La disponibilité et l’intégrité des données sont essentielles dans la modernisation des mainframes et des milieux de gamme. Les stratégies axées sur les données permettent de conserver les données intactes et disponibles pendant la migration vers Azure. Pour éviter les interruptions lors de la modernisation, vous devez parfois répliquer les données rapidement ou synchroniser les données locales avec les bases de données Azure.

Plus précisément, cette solution couvre :

  • Extraction : connectez-vous à une base de données source et extrayez-en des données.

  • Transformation:

    • Transfert : stockez temporairement les données dans leur format d’origine et préparez-les pour la transformation.

    • Préparation : Transformez et manipulez les données à l’aide de règles de mappage qui répondent aux exigences de la base de données cible.

  • Chargement : Insérez des données dans une base de données cible.

Cas d’usage potentiels

Les scénarios de réplication et de synchronisation des données qui peuvent bénéficier de cette solution sont les suivants :

  • Architectures de ségrégation qui utilisent Azure pour desservir tous les canaux d’enquête.

  • Environnements qui testent des applications sur site et des applications réhébergées ou repensées en parallèle.

  • Systèmes sur site dotés d’applications étroitement couplées qui nécessitent une correction ou une modernisation progressive.

Recommandations

Vous pouvez appliquer les recommandations suivantes à la plupart des scénarios. Suivez ces recommandations, sauf si vous avez un besoin spécifique qui vous oblige à les ignorer.

Lorsque vous utilisez Azure Data Factory pour extraire des données, prenez des mesures pour optimiser les performances de l’activité de copie.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework, un ensemble de principes directeurs que vous pouvez utiliser pour améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Fiabilité

La fiabilité permet de s’assurer que votre application peut respecter les engagements que vous prenez à vos clients. Pour en savoir plus, consultez Liste de contrôle de l'examen de la conception pour la fiabilité.

  • La gestion de l’infrastructure, y compris la disponibilité, est automatisée dans les bases de données Azure.

  • Pour plus d’informations sur le service Microsoft pour la protection contre le basculement DRDA, consultez Regroupement et basculement.

  • Vous pouvez mettre en cluster la passerelle de données locale et le runtime d’intégration pour fournir des garanties de disponibilité plus élevées.

Sécurité

La sécurité offre des garanties contre les attaques délibérées et l’utilisation abusive de vos données et systèmes précieux. Pour en savoir plus, consultez Liste de contrôle de l'examen de la conception pour la sécurité.

Optimisation des coûts

L’optimisation des coûts se concentre sur les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d'informations, consultez Liste de contrôle de la révision de la conception pour l'optimisation des coûts.

  • Les modèles de tarification varient selon les services de composants. Examinez les modèles de tarification des services de composants disponibles pour vous assurer qu’ils correspondent à votre budget.

  • Utilisez la Calculatrice de prix Azure pour estimer le coût de l’implémentation de cette solution.

Excellence opérationnelle

L’excellence opérationnelle couvre les processus opérationnels qui déploient une application et la maintiennent en production. Pour plus d’informations, consultez la Liste de contrôle de l'examen de la conception pour l'excellence opérationnelle.

Efficacité des performances

L’efficacité des performances fait référence à la capacité de votre charge de travail à mettre à l’échelle pour répondre efficacement aux demandes des utilisateurs. Pour en savoir plus, consultez Liste de vérification de l'examen de la conception pour l'efficacité des performances

  • Considérez Azure ExpressRoute comme une option à grande échelle si votre implémentation utilise une bande passante importante pour la réplication initiale ou la réplication continue des données modifiées.

  • Choisissez la configuration IR adaptée à votre scénario.

Étapes suivantes