Partager via


Démarrage rapide : Créer une solution pour déplacer et transformer des données

Dans ce guide de démarrage rapide, vous allez découvrir comment les flux de données et les pipelines fonctionnent ensemble pour créer une solution Data Factory puissante. Vous allez nettoyer les données à l'aide de flux de données et les transférer avec des pipelines.

Conditions préalables

Avant de commencer, vous avez besoin des éléments suivants :

Comparer les flux de données et les pipelines

Dataflow Gen2 fournit une interface low-code avec plus de 300 transformations basées sur l'IA et les données. Vous pouvez facilement nettoyer, préparer et transformer des données avec flexibilité. Les pipelines offrent des fonctionnalités d’orchestration de données enrichies pour composer des flux de travail de données flexibles répondant aux besoins de votre entreprise.

Dans un pipeline, vous pouvez créer des regroupements logiques d’activités qui effectuent une tâche. Cela peut inclure l’appel d’un dataflow pour nettoyer et préparer vos données. Bien que certaines fonctionnalités se chevauchent entre les deux, votre choix varie selon que vous avez besoin des fonctionnalités complètes des pipelines ou que vous pouvez utiliser les fonctionnalités plus simples des flux de données. Pour plus d’informations, consultez le Guide de Décision Fabric.

Transformer des données avec des dataflows

Suivez ces étapes pour configurer votre dataflow.

Créer un flux de données

  1. Sélectionnez votre espace de travail avec Infrastructure, puis Nouveau, puis choisissez Dataflow Gen2.

    Capture d’écran du démarrage d’un dataflow Gen2.

  2. Dans l’éditeur de flux de données, sélectionnez Importer à partir de SQL Server.

    Capture d’écran de l’éditeur de flux de données.

Obtenir des données

  1. Dans la boîte de dialogue Se connecter à la source de données , entrez les détails de votre base de données Azure SQL, puis sélectionnez Suivant. Utilisez l’exemple de base de données AdventureWorksLT à partir des prérequis.

    Capture d’écran de la connexion à une base de données Azure SQL.

  2. Sélectionnez les données à transformer, telles que SalesLT.Customer, et utilisez sélectionner des tables associées pour inclure des tables associées. Sélectionnez Ensuite Créer.

    Capture d’écran de la sélection des données à transformer.

Transformer vos données

  1. Sélectionnez la vue Diagramme dans la barre d’état ou le menu Affichage dans l’éditeur Power Query.

    Capture d’écran de la sélection de la vue diagramme.

  2. Sélectionnez avec le bouton droit votre requête SalesLT Customer , ou sélectionnez les points de suspension verticaux à droite de la requête, puis sélectionnez Fusionner les requêtes.

    Capture d’écran de l’option Fusionner les requêtes.

  3. Configurez la fusion avec SalesLTOrderHeader en tant que table de droite, CustomerID comme colonne de jointure et jointure externe gauche comme type de jointure. Cliquez sur OK.

    Capture d’écran de l’écran de configuration de fusion.

  4. Ajoutez une destination de données en sélectionnant le symbole de base de données avec une flèche. Choisissez la base de données Azure SQL comme type de destination.

    Capture d’écran du bouton Ajouter une destination de données.

  5. Fournissez les détails de votre connexion de base de données Azure SQL où la requête de fusion doit être publiée. Dans cet exemple, nous utilisons également la base de données AdventureWorksLT que nous avons utilisée comme source de données pour la destination.

    Capture d’écran de la boîte de dialogue Se connecter à la destination des données.

  6. Choisissez une base de données pour stocker les données, puis fournissez un nom de table, puis sélectionnez suivant .

    Capture d’écran de la fenêtre Choisir la cible de destination.

  7. Acceptez les paramètres par défaut dans la boîte de dialogue Choisir les paramètres de destination , puis sélectionnez Enregistrer les paramètres.

    Capture d’écran de la boîte de dialogue Choisir les paramètres de destination.

  8. Sélectionnez Publier dans l’éditeur de flux de données pour publier le flux de données.

    Capture d’écran mettant en évidence le bouton Publier dans l’éditeur dataflow gen2.

Déplacer des données avec des pipelines

Maintenant que vous avez créé un Dataflow Gen2, vous pouvez l’utiliser dans un pipeline. Dans cet exemple, vous copiez les données générées à partir du flux de données dans le format texte dans un compte stockage Blob Azure.

Créer un pipeline

  1. Dans votre espace de travail, sélectionnez Nouveau, puis Pipeline.

    Capture d’écran de la création d’un pipeline.

  2. Nommez votre pipeline et sélectionnez Créer.

    Capture d’écran montrant l’invite de création de pipeline avec un exemple de nom de pipeline.

Configurer votre dataflow

  1. Ajoutez une activité de flux de données à votre pipeline en sélectionnant Dataflow sous l’onglet Activités .

    Capture d’écran de l’ajout d’une activité de flux de données.

  2. Sélectionnez le flux de données sur le canevas du pipeline, accédez à l’onglet Paramètres , puis choisissez le flux de données que vous avez créé précédemment.

    Capture d’écran de la sélection d’un dataflow.

  3. Sélectionnez Enregistrer, puis Exécuter pour remplir la table de requête fusionnée.

    Capture d’écran montrant où sélectionner Exécuter.

Ajouter une activité Copy

  1. Sélectionnez Copier des données sur le canevas ou utilisez l’Assistant Copie sous l’onglet Activités .

    Capture d’écran montrant les deux façons d’accéder à l’Assistant copie.

  2. Choisissez Azure SQL Database comme source de données, puis sélectionnez Suivant.

    Capture d’écran montrant où choisir une source de données.

  3. Créez une connexion à votre source de données en sélectionnant Créer une connexion. Renseignez les informations de connexion requises dans le panneau et entrez AdventureWorksLT pour la base de données, où nous avons généré la requête de fusion dans le flux de données. Sélectionnez ensuite suivant.

    Capture d’écran montrant où créer une connexion.

  4. Sélectionnez la table que vous avez générée à l’étape de flux de données précédemment, puis sélectionnez suivant.

    Capture d’écran montrant comment sélectionner parmi les tables disponibles.

  5. Pour votre destination, choisissez Azure Blob Storage, puis sélectionnez Suivant.

    Capture d’écran montrant la destination des données stockage Blob Azure.

  6. Créez une connexion à votre destination en sélectionnant Créer une connexion. Fournissez les détails de votre connexion, puis sélectionnez suivant .

    Capture d’écran montrant comment créer une connexion.

  7. Sélectionnez le chemin d’accès de votre dossier et fournissez un nom de fichier , puis sélectionnez suivant.

    Capture d’écran montrant comment sélectionner le chemin du dossier et le nom du fichier.

  8. Sélectionnez Suivant à nouveau pour accepter le format de fichier par défaut, le délimiteur de colonne, le délimiteur de ligne et le type de compression, y compris éventuellement un en-tête.

    Capture d’écran montrant les options de configuration du fichier dans Stockage Blob Azure.

  9. Finalisez vos paramètres. Ensuite, passez en revue et sélectionnez Enregistrer + Exécuter pour terminer le processus.

    Capture d’écran montrant comment passer en revue les paramètres de copie des données.

Concevez votre pipeline et sauvegardez pour exécuter et charger des données

  1. Pour exécuter l’activité de copie après l’activité de flux de données, faites glisser l’activité Réussite de l’activité de flux de données vers l’activité de copie. L’activité Copier s’exécute uniquement une fois que l’activité flux de données réussit.

    Capture d’écran montrant comment exécuter le flux de données après l’activité de copie.

  2. Sélectionnez Enregistrer pour enregistrer votre pipeline. Sélectionnez Ensuite Exécuter pour exécuter votre pipeline et charger vos données.

    Capture d’écran montrant où sélectionner Enregistrer et Exécuter.

Planifier l’exécution du pipeline

Une fois que vous avez terminé le développement et le test de votre pipeline, vous pouvez le planifier automatiquement.

  1. Sous l’onglet Accueil de la fenêtre de l’éditeur de pipeline, sélectionnez Planification.

    Capture d’écran du bouton Planifier dans le menu de l’onglet Accueil de l’éditeur de pipeline.

  2. Configurez la planification en fonction des besoins. L’exemple ci-dessous planifie l’exécution quotidienne du pipeline à 18h00 jusqu’à la fin de l’année.

    Capture d’écran montrant la configuration de planification d’un pipeline à exécuter tous les jours à 20h00 jusqu’à la fin de l’année.

Cet exemple vous montre comment créer et configurer un Dataflow Gen2 pour créer une requête de fusion et le stocker dans une base de données Azure SQL, puis copier des données de la base de données dans un fichier texte dans stockage Blob Azure. Vous avez appris à :

  • Créez un dataflow.
  • Transformez des données avec le dataflow.
  • Créez un pipeline à l’aide du flux de données.
  • Ordonner l’exécution des étapes dans le pipeline.
  • Copiez des données avec l’Assistant Copie.
  • Exécutez et planifiez votre pipeline.

Ensuite, avancez pour en savoir plus sur la supervision des exécutions de votre pipeline.