Partager via


Guide de décision Microsoft Fabric : Choisir une stratégie de déplacement des données

Microsoft Fabric vous offre plusieurs façons d’importer des données dans Fabric, en fonction de ce dont vous avez besoin. Aujourd’hui, vous pouvez utiliser la mise en miroir, les activités de copie dans les pipelines, le travail de copie ou les flux d’événements. Chaque option offre un niveau de contrôle et de complexité différent. Vous pouvez donc choisir ce qui convient le mieux à votre scénario.

La mise en miroir est conçue pour être une solution simple et gratuite pour mettre en miroir la base de données vers Fabric, mais elle ne couvre pas tous les scénarios avancés. Les activités de copie dans les pipelines vous offrent des fonctionnalités d’ingestion de données entièrement personnalisables, mais elles vous obligent à créer et à gérer vous-même le pipeline. La tâche de copie comble le vide entre ces 2 options. Il vous offre plus de flexibilité et de contrôle que la mise en miroir, ainsi que la prise en charge native de la copie par lots et incrémentielle, sans la complexité de la création de pipelines.

Pour les scénarios d’ingestion de streaming en temps réel et pilotés par les événements, essayez Eventstreams dans Real-Time Intelligence. Ils fournissent un déplacement de données à faible latence, vous permettent de transformer des données sans code ni transformations SQL, et de prendre en charge le routage basé sur le contenu vers plusieurs destinations, notamment Eventhouse, Lakehouse et Activateor.

Capture d’écran d’un arbre de décision de stratégie de déplacement de données, comparaison de la mise en miroir, du flux d’événements, du travail de copie et de l’activité de copie.

Concepts clés

  • La mise en miroir vous offre un moyen simple et gratuit de mettre en miroir les données opérationnelles dans Fabric pour l’analytique. Il est optimisé pour faciliter l’utilisation avec une configuration minimale et écrit dans une seule destination en lecture seule dans OneLake.

  • Les activités de copie dans Pipelines sont conçues pour les utilisateurs qui ont besoin de flux de travail d’ingestion de données orchestrés et basés sur des pipelines. Vous pouvez le personnaliser de manière étendue et ajouter une logique de transformation, mais vous devez définir et gérer vous-même des composants de pipeline, y compris le suivi de l’état de la dernière exécution pour la copie incrémentielle.

  • La fonction Copie de tâches facilite l’ingestion des données grâce à la prise en charge native des multiples styles de livraison, notamment la copie en bloc, la copie incrémentielle et la réplication de capture de données de modification (CDC), et vous n’avez pas besoin de construire des pipelines, tout en vous donnant accès à de nombreuses options avancées. Il prend en charge de nombreuses sources et destinations, et fonctionne bien lorsque vous souhaitez plus de contrôle que la mise en miroir, mais moins complexe que la gestion des pipelines avec l’activité de copie.

  • Flux d’événements : conçu pour l’ingestion, la transformation et le traitement en temps réel des données de streaming. Prend en charge les pipelines à faible latence, la gestion des schémas et le routage vers des destinations telles que Eventhouse, Lakehouse, Activator et des points de terminaison personnalisés prenant en charge AMQP, Kafka et HTTP.

Guide de décision sur le déplacement des données

Miroir Tâche de copie Activité de copie (pipeline) Flux d’événements
Sources Bases de données + intégration tierce à Open Mirroring Toutes les sources et formats de données pris en charge Toutes les sources et formats de données pris en charge Plus de 25 sources et tous les formats
Destinations Format tabulaire dans Fabric OneLake (lecture seule) Toutes les destinations et formats pris en charge Toutes les destinations et formats pris en charge 4 plus destinations
Flexibilité Configuration simple avec un comportement fixe Options plus faciles à utiliser + Options avancées Options avancées et entièrement personnalisables Options simples et personnalisables
Capacité Miroir Tâche de copie Activité de copie (pipeline) Flux d’événements
Planification personnalisée Oui Oui Continu
Gestion des tables et des colonnes Oui Oui Oui (schéma, gestion des événements et des champs)
Comportement de copie : Append, Upsert, Override Oui Oui Append
Observabilité avancée + audit Oui Oui
Modes de copie
Réplication continue basée sur la capture de données modifiées Oui Oui Oui
Traitement par lots ou copie en bloc Oui Oui Oui (réplication initiale de l'instantané CDC)
Prise en charge native de la copie incrémentielle (basée sur un filigrane) Oui
Copier à l’aide d’une requête définie par l’utilisateur Oui Oui
Cas d’utilisation
Réplication continue pour l’analytique et la création de rapports Oui Oui Oui
ELT/ETL piloté par les métadonnées pour l’entreposage de données Oui Oui
Consolidation des données Oui Oui Oui
Migration de données / Sauvegarde de données / Partage de données Oui Oui Oui
Gratuit Oui
Performances prévisibles Oui Oui Oui

Scénarios

Passez en revue ces scénarios pour vous aider à choisir la stratégie de déplacement des données qui convient le mieux à vos besoins.

Scénario 1

James est directeur financier d’une compagnie d’assurance. Son équipe utilise Azure SQL Database pour suivre les données de stratégie, les revendications et les informations client sur plusieurs unités commerciales. L’équipe de direction souhaite créer des tableaux de bord en temps réel pour la surveillance des performances de l’entreprise, mais James ne peut pas autoriser les requêtes analytiques à ralentir les systèmes opérationnels qui traitent des milliers de transactions quotidiennes.

James a besoin de la réplication continue des données sans complexité d’installation ni maintenance continue. Il ne souhaite pas gérer la planification, configurer les charges incrémentielles ou s’inquiéter de la sélection de table . Il a besoin de tout ce qui est mis en miroir automatiquement. Étant donné qu’il s’agit uniquement de rapports exécutifs, le fait d’avoir les données dans un format en lecture seule dans OneLake fonctionne parfaitement. La solution doit également être rentable, car elle sort du budget de son ministère.

James examine les options et choisit La mise en miroir. La mise en miroir fournit la réplication continue basée sur cdc dont il a besoin, gérant automatiquement toutes les tables sans aucune configuration. La configuration simple signifie qu’il n’a pas besoin d’expertise technique, et le coût gratuit correspond à son budget. Le format tabulaire en lecture seule dans OneLake donne à son équipe l’accès analytique en temps réel dont ils ont besoin sans avoir d’impact sur les performances opérationnelles.

Scénario 2

Lisa est analyste d’entreprise dans une entreprise logistique. Elle doit copier des données d’expédition de plusieurs bases de données Snowflake dans des tables Fabric Lakehouse pour l’analyse de la chaîne d’approvisionnement. Les données incluent des enregistrements historiques pour la charge initiale et les nouvelles expéditions qui arrivent tout au long de la journée. Lisa souhaite exécuter ce processus selon une planification personnalisée , toutes les 4 heures pendant les heures d’ouverture.

Lisa doit sélectionner des tables spécifiques à partir de chaque instance Snowflake, mapper des colonnes aux noms standardisés et utiliser le comportement upsert pour gérer les mises à jour des enregistrements d’expédition existants. Elle a besoin de fonctionnalités de gestion des tables et des colonnes pour gérer différents schémas entre les régions, et elle souhaite une supervision avancée pour suivre les performances de qualité et de traitement des données.

Lisa examine les options et sélectionne le travail Copier. Le travail de copie fournit la planification personnalisée dont elle a besoin pour ses exigences d’heures de travail, prend en charge toutes les sources de données, y compris Snowflake, et offre les fonctionnalités de gestion de table et de colonne pour sa configuration multirégion. L’interface facile à utiliser avec des options de configuration avancées lui permet de gérer la copie incrémentielle avec la détection basée sur des filigranes et le comportement upsert sans générer de pipelines.

Scénario 3

David est ingénieur de données senior chez une entreprise de télécommunications. Il crée un flux de travail d’ingestion de données complexe qui doit extraire des données d’utilisation des clients à partir d’Oracle à l’aide de requêtes SQL personnalisées, appliquer des transformations métier et les charger dans plusieurs destinations, notamment Fabric Warehouse et les systèmes externes. Le flux de travail doit également être coordonné avec d’autres activités de pipeline telles que la validation des données et les étapes de notification.

David a besoin d’un contrôle total sur le processus de copie, notamment la possibilité d’utiliser des requêtes définies par l’utilisateur pour joindre des tables et filtrer des données à la source. Il a besoin d’options de configuration avancées et entièrement personnalisables, de performances prévisibles pour les volumes de données volumineux et de la possibilité d’intégrer le processus de copie dans des workflows d’orchestration de pipeline plus larges avec les dépendances et la gestion des erreurs.

David passe en revue les options disponibles et choisit Les activités de copie dans les pipelines. Cette approche lui donne la configuration avancée et entièrement personnalisable dont il a besoin, prend en charge les requêtes définies par l’utilisateur pour l’extraction de données complexes et fournit l’orchestration basée sur le pipeline requise pour son workflow. Les fonctionnalités avancées de supervision et d’audit lui permettent de suivre le processus complexe, tandis que l’infrastructure de pipeline lui permet de coordonner les activités de copie avec d’autres étapes de traitement des données.

Scénario 4

Ash est un chef de produit d’une entreprise de télécommunications. Son équipe doit surveiller les métriques de support client telles que les volumes d’appels, les temps d’attente et les performances de l’agent, en temps réel pour garantir la conformité du contrat SLA et améliorer la satisfaction des clients. Les données proviennent de plusieurs systèmes opérationnels, notamment des plateformes CRM, des journaux d’activité du centre d’appels et des bases de données d’affectation d’agent, et arrivent à une fréquence élevée tout au long de la journée.

Ash utilise Fabric Eventstreams pour ingérer et transformer ces données en mouvement. Elle configure les connecteurs de diffusion en continu pour extraire des données de différentes sources, applique des transformations à l’aide de l’expérience sans code et route les événements traités vers Eventhouse pour l’analytique en temps réel. Elle intègre l’activateur de données pour déclencher des alertes et des flux de travail automatisés lorsque des seuils sla sont enfreints afin qu’elle puisse envoyer des notifications aux superviseurs ou ajuster dynamiquement les niveaux de dotation.

Le résultat est un tableau de bord en temps réel qui se met à jour en quelques secondes, ce qui donne à l’équipe Ash une visibilité sur les métriques de performances actives et permet des décisions rapides et pilotées par les données. Cette architecture de diffusion en continu élimine la latence des pipelines par lots et permet à l’entreprise de répondre instantanément aux besoins des clients.

Get started

Maintenant que vous avez une idée de la stratégie de déplacement des données à utiliser, vous pouvez commencer à utiliser ces ressources :