Partager via


Guide de décision Microsoft Fabric : Choisir une stratégie d’intégration des données

Microsoft Fabric dispose d’une suite complète d’outils pour gérer efficacement les charges de travail de données et d’analytique. Avec autant d’options disponibles, notamment les fonctionnalités de diffusion en continu par lots, de pipeline et de streaming en temps réel, il peut être difficile de choisir l’outil approprié pour vos besoins spécifiques. Ce guide de décision fournit une feuille de route pour vous aider à sélectionner la bonne stratégie.

Capture d’écran du diagramme de flux de travail d’intégration de données montrant des colonnes pour le déplacement, l’orchestration et la transformation des données.

Pour choisir le service d’intégration de données approprié dans Microsoft Fabric, tenez compte des questions suivantes :

  • Quel est votre objectif principal ? Voulez-vous ingérer des données, les transformer, les répliquer, orchestrer le déplacement des données ou diffuser en continu et agir sur les données en temps réel ?

  • Quel est votre niveau de compétence technique ? Préférez-vous des solutions sans code ou à faible code, ou êtes-vous à l’aise avec le code ?

  • Quel type de charge de travail de données utilisez-vous ? Est-ce qu’il s’agit d’un lot, d’un flux incrémentiel, d’un streaming continu ou en quasi-temps réel ?

  • Quel type de transformation de données avez-vous besoin ? Faites-vous des transformations légères ou complexes ?

Pour obtenir la liste des connecteurs pris en charge dans le travail de copie, l’activité de copie et Dataflow Gen 2, consultez la vue d’ensemble du connecteur. Pour obtenir la liste des sources Eventstream prises en charge, consultez la liste des sources.

Stratégies de déplacement des données

Miroir Copier le travail Activité de copie (pipeline) Flux d’événements
Cas d'utilisation Réplication des données Ingestion de données et réplication Ingestion des données Ingestion de données de diffusion en continu et traitement
Scénarios phares Synchronisation en temps quasi réel avec l’installation de clé en clé. Réplication Copie incrémentielle / réplication (filigrane + capture de données native), Data Lake / Storage Data Migration, Medallion Ingestion, copie multi-table prête à l’emploi. Data Lake / Migration des données de stockage, Ingestion Medallion, Copie incrémentielle via des expressions de pipeline et tables de contrôle (filigrane uniquement) Traitement incrémentiel, piloté par les événements et applications IA en temps réel
Source Connecteurs 6+ Connecteurs 50+ Connecteurs 50+ 25+ sources
Destination Base de données mise en miroir (stockée en tant que table Delta en lecture seule dans Fabric OneLake) Connecteurs 40+ Connecteurs 40+ 4 + destinations
Type de données entrantes Quasiment en temps réel Batch / Incremental Copy (water-mark based &change data capture) / Quasiment en temps réel Traitement par lots / En gros / Copie incrémentielle manuelle basée sur des filigranes Données de streaming en temps réel, capture et flux de modification de données
Persona Analyste métier, Administrateur de base de données Analyste métier, Intégrateur de données, Ingénieur données Intégrateur de données, analyste métier, ingénieur données Ingénieur données & Intégrateur, Analyste des données
Ensemble de compétences Aucun ETL, SQL ETL, SQL ETL, SQL, KQL
Niveau de codage Aucun code Aucun code / Code faible Aucun code / Code faible Aucun code / Code faible
Prise en charge des transformations Aucun Low Low Moyen (analyse de flux)

Pour plus d’informations, consultez la stratégie de déplacement des données.

Stratégies d’orchestration

Pipeline Travail Apache Airflow
Cas d'utilisation Orchestration de code faible Orchestration orientée code
Scénarios phares Regroupement logique de plusieurs activités pour effectuer une tâche. Création de Code-Centric Python
Source Toutes les sources compatibles Fabric (en fonction des activités de pipeline sélectionnées) Connecteurs 100+
Destination Toutes les sources compatibles Fabric (en fonction des activités de pipeline sélectionnées) Connecteurs 100+
Type de données entrantes Outre Outre
Persona Intégrateur de données, analyste métier, ingénieur données Utilisateurs Apache Airflow
Ensemble de compétences ETL, SQL, Spark (Scala, Py, SQL, R) Python
Niveau de codage Aucun code / Code faible Code-first
Prise en charge des transformations Aucun Aucun

Stratégies de transformation

Cahiers Dataflow Gen 2 Flux d’événements
Cas d'utilisation Préparation/transformation des données code-first Préparation / Transformation des données sans code Transformation sans code / Stream Analytics basé sur SQL
Scénarios phares Transformations complexes Transformation & Profilage Traitement de flux & Analytique
Source Bibliothèques Spark 100+ Connecteurs intégrés 170+ + Kit de développement logiciel (SDK) personnalisé 25+ sources
Destination Bibliothèques Spark 100+ Connecteurs 7+ 4 + destinations
Type de données entrantes Outre Outre Tous les types inclus. JSON, AVRO, CSV, XML, TXT, etc.
Persona Scientifique des données, Développeur Ingénieur données, intégrateur de données, analyste métier Ingénieur données et analyste
Ensemble de compétences Spark (Scala, Py, SQL, R) ETL, M, SQL SQL, KQL
Niveau de codage Code-first Aucun code / Code faible Aucun code / Code faible
Prise en charge des transformations High Élevé (activités de 400+ ) Moyen

Scénarios

Passez en revue ces scénarios pour vous aider à choisir la stratégie d’intégration des données à utiliser dans Microsoft Fabric.

Scénario 1

Hanna est administrateur de base de données pour une société de services financiers. Elle gère plusieurs bases de données SQL Server critiques qui alimentent les applications commerciales de l’organisation. L’entreprise a besoin d’un accès quasiment en temps réel à ces données transactionnelles pour la création de rapports réglementaires et l’analyse des risques. Toutefois, Hanna doit éviter d’avoir un impact sur les performances des systèmes de production.

Le défi de Hanna est de fournir aux équipes d’analyse des données up-to-date sans créer de charge supplémentaire sur les bases de données opérationnelles. Elle ne souhaite pas créer de pipelines ETL complexes ni gérer les processus de déplacement des données. Les volumes de données sont importants et l’entreprise a besoin des données disponibles pour l’analyse en quelques minutes de transactions dans les systèmes sources.

Hanna passe en revue les options et choisit la mise en miroir comme solution idéale. Avec la mise en miroir, elle peut configurer une réplication de données en quasi temps réel à partir de ses bases de données SQL Server vers Microsoft Fabric avec une configuration minimale. Les données mises en miroir sont disponibles dans OneLake en tant que tables Delta, ce qui permet l’analytique en aval sans affecter les performances du système source. La mise en miroir fournit la configuration clé en main dont elle a besoin, gérant automatiquement la complexité de la réplication des données tout en garantissant la continuité de l’activité.

Scénario 2

Charlie est analyste de données chez une entreprise de vente au détail. Il est responsable de la consolidation des données de ventes de plusieurs bases de données régionales dans un entrepôt de données central. L’entreprise opère sur différents fuseaux horaires, et la base de données de chaque région utilise la capture de données modifiées (CDC) pour suivre les transactions d’inventaire et de vente. Charlie a besoin d’une solution qui peut gérer la charge complète initiale des données historiques, puis basculer vers des mises à jour incrémentielles basées sur la capture de données modifiées.

Charlie souhaite une approche sans code, pilotée par l’Assistant, qui lui permet de sélectionner plusieurs tables à partir de différentes instances SQL Server régionales, d’effectuer la migration en bloc initiale, puis de gérer automatiquement les données up-to-date via des charges incrémentielles basées sur cdc. La solution doit gérer à la fois les insertions et les mises à jour, et doit fusionner les modifications dans la destination sans intervention manuelle.

Charlie évalue les options et sélectionne Copier le travail comme approche préférée. Le travail de copie fournit la fonctionnalité de sélection multi-table dont il a besoin, prend en charge la copie incrémentielle basée sur des filigranes et natives de capture de données modifiées et offre une interface d’Assistant intuitive. La fonctionnalité prête à l’emploi lui permet de configurer l’intégralité du processus de réplication des données sans écrire de code, et la détection automatique des tables compatibles cdc simplifie le processus d’installation.

Scénario 3

Rukmina est ingénieur données dans une entreprise de fabrication. Elle doit migrer de grands volumes de données de production historiques d’une base de données Oracle locale vers un nouvel entrepôt Fabric. La migration implique la copie de centaines de tables avec des millions d’enregistrements, et elle doit implémenter une architecture de médaillon avec des couches bronze, argent et or. Rukmina a une expérience avec SQL, mais préfère les solutions à faible code lorsque cela est possible.

Le projet exige qu’elle copie les données brutes dans la couche bronze, puis applique des transformations légères telles que les conversions de types de données et le mappage de colonnes à mesure que les données passent par les couches de médaillon. Rukmina doit s’assurer que la solution peut gérer efficacement les volumes de données élevés et peut être planifiée pour s’exécuter de manière incrémentielle pour les opérations en cours. Les parties prenantes souhaitent une solution qui peut passer de gigaoctets à pétaoctets de données à mesure que l’entreprise augmente.

Rukmina examine les options disponibles et choisit l’activité de copie dans les pipelines. Cette approche lui donne l’interface glisser-déplacer qu’elle préfère tout en fournissant la scalabilité nécessaire pour les volumes de données volumineux. L’activité de copie prend en charge les connecteurs 50+ dont elle a besoin pour différents systèmes sources, et l’infrastructure de pipeline lui permet d’orchestrer le mouvement entre les couches de médaillon. Avec l’activité de copie, elle peut implémenter des modèles d’actualisation des données historiques et incrémentielles tout en conservant les performances requises pour les opérations à l’échelle pétaoctet.

Scénario 4

Julian est un analyste d’entreprise avec de solides compétences SQL. Il doit orchestrer un flux de travail complexe de traitement des données qui implique plusieurs étapes : extraction de données à partir de différents systèmes, exécution de contrôles de qualité des données, exécution de transformations, chargement de données dans plusieurs destinations et envoi de notifications aux parties prenantes. Le flux de travail doit s’exécuter selon une planification et gérer les dépendances entre différentes activités.

L’organisation de Julian utilise un mélange de services Azure et de systèmes locaux, et le flux de travail nécessite à la fois le déplacement des données et la logique d’orchestration. Il doit coordonner les activités telles que l’exécution de procédures stockées, l’appel d’API web, le déplacement de fichiers et l’exécution d’autres pipelines. Bien que Julian soit à l’aise avec les scripts SQL et de base, il préfère une approche visuelle et basse code pour la création et la maintenance de ces flux de travail complexes.

Julian évalue les options et sélectionne Pipelines comme le mieux adapté à ses besoins. Les pipelines fournissent le canevas visuel et les activités glisser-déplacer dont il a besoin pour créer des workflows d’orchestration complexes. La solution prend en charge le regroupement logique d’activités, de gestion des dépendances et de fonctionnalités de planification. Avec des connecteurs de 50+ et différents types d’activité (copie, recherche, procédure stockée, web, etc.), Pipelines lui donne la possibilité de coordonner diverses tâches tout en conservant l’approche à faible code qu’il préfère.

Scénario 5

Darshan est un scientifique des données disposant d’une vaste expérience Python. Il doit créer et gérer des workflows complexes de traitement des données qui intègrent des modèles Machine Learning, des algorithmes personnalisés et diverses API externes. L’équipe de science des données de son organisation préfère les approches code-first et souhaite tirer parti de son expertise Python existante, notamment des bibliothèques personnalisées et des modèles d’orchestration avancés.

Darshan a besoin d’une solution qui prend en charge les graphiques acycliques orientés Python (DAGs), peut gérer des dépendances complexes entre les tâches et s’intègre aux processus DevOps existants de l’équipe. Les flux de travail impliquent l’ingestion de données à partir de plusieurs sources, de l’ingénierie des fonctionnalités, de l’entraînement des modèles, du scoring par lots et de la logique métier personnalisée qui nécessite la flexibilité de la programmation Python complète. L’équipe valeurs l’écosystème d’Apache Airflow et souhaite maintenir la compatibilité avec leurs flux de travail existants.

Darshan examine les options et choisit Apache Airflow Jobs comme solution idéale. Cette approche code-first permet à son équipe d’utiliser son expertise Python tout en créant des flux de travail sophistiqués de traitement des données. Apache Airflow Jobs fournit l’orchestration basée sur DAG qu’ils connaissent, prend en charge 100 connecteurs plus via l’écosystème Airflow et leur permet d’implémenter une logique métier personnalisée à l’aide de Python. L’approche de service managé élimine les problèmes d’infrastructure tout en préservant la flexibilité et la puissance d’Apache Airflow.

Scénario 6

René est un scientifique des données à une université de recherche. Elle doit effectuer des tâches complexes d’analyse et de transformation des données sur des jeux de données volumineux stockés dans plusieurs formats et sources. Son travail implique l’analyse statistique, le développement de modèles Machine Learning et les algorithmes de traitement des données personnalisés qui nécessitent la puissance totale de l’informatique distribuée.

René travaille avec des données structurées et non structurées, notamment des fichiers CSV, des documents JSON, des fichiers Parquet et des flux en temps réel. Son analyse nécessite des transformations complexes telles que des jointures sur plusieurs jeux de données volumineux, des agrégations, des calculs statistiques et des algorithmes personnalisés implémentés dans Python et Scala. Elle a besoin de la flexibilité nécessaire pour travailler de manière interactive pendant les phases d’exploration, puis mettre en œuvre son code pour les charges de travail de production.

René évalue ses options et choisit notebooks comme outil principal. Les notebooks fournissent l’environnement code-first dont elle a besoin avec un accès complet aux fonctionnalités de calcul distribué de Spark. Elle peut travailler avec des centaines de bibliothèques Spark, implémenter des transformations complexes à l’aide de plusieurs langages (Python, Scala, SQL, R) et utiliser l’environnement de développement interactif pour l’exploration des données. L’interface de notebook lui permet de combiner du code, des visualisations et de la documentation tout en fournissant le calcul hautes performances nécessaire pour ses besoins en matière de traitement des données à grande échelle.

Scénario 7

Ako est un analyste d’entreprise au sein d’une organisation de santé. Elle doit intégrer des données provenant de plusieurs sources, notamment des bases de données, des services web et des systèmes de fichiers pour créer des jeux de données propres et prêts pour l’entreprise. Ako a beaucoup d’expérience avec Power Query à partir de son travail dans Excel et Power BI, et elle préfère les interfaces visuelles et sans code pour les tâches de préparation des données.

Les responsabilités d’Ako incluent le nettoyage des données médicales, l’application de règles métier, la validation de la qualité des données et la création de jeux de données standardisés qui alimentent les systèmes de rapports réglementaires. Les sources de données incluent les systèmes de gestion des patients, les systèmes d’information de laboratoire et les services d’API externes. Elle doit effectuer des transformations complexes telles que le profilage des données, la suppression en double, la normalisation des codes médicaux et la création de champs calculés en fonction de la logique métier.

Ako examine les options disponibles et sélectionne Dataflow Gen 2 comme solution préférée. Dataflow Gen 2 offre l’expérience Power Query familière qu’elle connaît à partir d’autres outils Microsoft, tout en offrant des performances et des fonctionnalités améliorées. Avec 170 connecteurs intégrés, elle peut se connecter à toutes ses sources de données diverses, appliquer 300 fonctions de transformation via l’interface visuelle et tirer parti des outils de profilage des données pour garantir la qualité des données. L’approche sans code lui permet de se concentrer sur la logique métier plutôt que sur les détails de l’implémentation technique.

Scénario 8

Ash est un chef de produit d’une entreprise de télécommunications. Son équipe doit surveiller les métriques de support client, telles que les volumes d’appels, les temps d’attente et les performances de l’agent, en temps réel pour garantir que les contrats de niveau de service (SLA) sont respectés. Les données proviennent de plusieurs systèmes opérationnels, notamment crm, journaux du centre d’appels et bases de données d’affectation d’agent.

Ash souhaite créer des tableaux de bord en temps réel et déclencher des workflows automatisés lorsque des seuils sont enfreints (par exemple, lorsque les temps d’attente dépassent les limites du contrat SLA). Elle souhaite également éviter de créer des pipelines ETL complexes ou de gérer l’infrastructure.

Ash évalue les options et sélectionne Fabric Eventstreams. Avec Eventstreams, elle peut ingérer des données à partir de plusieurs sources à l’aide de connecteurs de streaming, appliquer des transformations légères et acheminer des événements vers des destinations comme Eventhouse et Data Activateor. Elle configure des alertes et des tableaux de bord qui sont mis à jour en secondes, ce qui permet à son équipe de répondre rapidement aux problèmes opérationnels.

Fabric Eventstreams et Real-Time Intelligence fournissent l'expérience à faible latence et à faible code dont Ash a besoin pour créer des applications basées sur des événements sans perturber les systèmes existants.

Get started

Maintenant que vous comprenez le service à utiliser, vous pouvez commencer à créer vos solutions d’intégration de données dans Microsoft Fabric.