Partager via


Ingérer des données dans Azure Data Lake Storage Gen2

Dans cet article, vous allez apprendre à ingérer des données d’un emplacement à un autre dans un compte de stockage Azure Data Lake Gen 2 (Azure Data Lake Gen 2) à l’aide d’Azure Synapse Analytics.

Prerequisites

  • Abonnement Azure : si vous n’avez pas d’abonnement Azure, créez un compte Azure gratuit avant de commencer.
  • Compte stockage Azure : Vous utilisez Azure Data Lake Gen 2 comme magasin de données source . Si vous n’avez pas de compte de stockage, consultez Créer un compte de stockage Azure pour connaître les étapes de création d’un compte.

Créez des services liés

Dans Azure Synapse Analytics, un service lié est l’endroit où vous définissez vos informations de connexion à d’autres services. Dans cette section, vous allez ajouter Azure Synapse Analytics et Azure Data Lake Gen 2 en tant que services liés.

  1. Ouvrez l’expérience utilisateur Azure Synapse Analytics et accédez à l’onglet Gérer .
  2. Sous Connexions externes, sélectionnez Services liés.
  3. Pour ajouter un service lié, sélectionnez Nouveau.
  4. Sélectionnez la vignette Azure Data Lake Storage Gen2 dans la liste, puis sélectionnez Continuer.
  5. Entrez vos informations d’identification d’authentification. La clé de compte, le principal de service et l’identité managée sont actuellement des types d’authentification pris en charge. Sélectionnez tester la connexion pour vérifier que vos informations d’identification sont correctes.
  6. Sélectionnez Créer une fois terminé.

Créer un pipeline

Un pipeline contient le flux logique pour une exécution d’un ensemble d’activités. Dans cette section, vous allez créer un pipeline contenant une activité de copie qui ingère des données d’Azure Data Lake Gen 2 dans un pool SQL dédié.

  1. Accédez à l’onglet Orchestrer . Sélectionnez l’icône plus en regard de l’en-tête pipelines, puis sélectionnez Pipeline.
  2. Sous Déplacer et transformer dans le volet Activités, faites glisser Copier des données sur le canevas du pipeline.
  3. Sélectionnez l’activité de copie et accédez à l’onglet Source . Sélectionnez Nouveau pour créer un jeu de données source.
  4. Sélectionnez Azure Data Lake Storage Gen2 comme magasin de données, puis continuez.
  5. Sélectionnez DelimitedText comme format, puis continuez.
  6. Dans le volet définir les propriétés, sélectionnez le service lié ADLS que vous avez créé. Spécifiez le chemin d’accès du fichier de vos données sources et spécifiez si la première ligne a un en-tête. Vous pouvez importer le schéma à partir du magasin de fichiers ou d’un exemple de fichier. Sélectionnez OK lorsque vous avez terminé.
  7. Accédez à l’onglet Récepteur . Sélectionnez Nouveau pour créer un jeu de données récepteur.
  8. Sélectionnez Azure Data Lake Storage gen2 comme magasin de données, puis continuez.
  9. Sélectionnez DelimitedText comme format, puis continuez.
  10. Dans le volet définir les propriétés, sélectionnez le service lié ADLS que vous avez créé. Spécifiez le chemin du dossier dans lequel vous souhaitez écrire des données. Sélectionnez OK lorsque vous avez terminé.

Déboguer et publier un pipeline

Une fois que vous avez terminé de configurer votre pipeline, vous pouvez exécuter une exécution de débogage avant de publier vos artefacts pour vérifier que tout est correct.

  1. Pour déboguer le pipeline, sélectionnez Déboguer dans la barre d’outils. L’état d’exécution du pipeline apparaît dans l’onglet Sortie au bas de la fenêtre.
  2. Une fois que le pipeline s’exécute correctement, dans la barre d’outils supérieure, sélectionnez Publier Tout. Cette action publie des entités (jeux de données et pipelines) que vous avez créées dans le service Synapse Analytics.
  3. Patientez jusqu’à voir le message Publication réussie. Pour afficher les messages de notification, sélectionnez le bouton de cloche en haut à droite.

Déclencher et surveiller le pipeline

Au cours de cette étape, vous déclenchez manuellement le pipeline publié à l’étape précédente.

  1. Sélectionnez Ajouter déclencheur dans la barre d’outils, puis Déclencher maintenant. Dans la page Exécution du pipeline , sélectionnez Terminer.
  2. Accédez à l’onglet Moniteur situé dans la barre latérale gauche. Vous voyez un pipeline qui est déclenché par un déclencheur manuel. Vous pouvez utiliser des liens dans la colonne Actions pour afficher les détails de l’activité et réexécuter le pipeline.
  3. Pour afficher les exécutions d’activité associées à l’exécution du pipeline, sélectionnez le lien Afficher les exécutions d’activité dans la colonne Actions . Dans cet exemple, il n’y a qu’une seule activité, vous ne voyez donc qu’une seule entrée dans la liste. Pour plus d’informations sur l’opération de copie, sélectionnez le lien Détails (icône lunettes) dans la colonne Actions . Sélectionnez Exécutions de pipeline au sommet de la page pour revenir à la vue des exécutions du pipeline. Sélectionnez Actualiser pour actualiser l’affichage.
  4. Vérifiez que vos données sont correctement écrites dans le pool SQL dédié.

Étapes suivantes

Pour plus d’informations sur l’intégration des données pour Azure Synapse Analytics, consultez l’article Ingestion de données dans un pool SQL dédié .