Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Dans un pipeline, vous pouvez utiliser l’activité de copie pour copier des données entre des magasins de données dans le cloud. Après avoir copié les données, vous pouvez utiliser d’autres activités dans votre pipeline pour la transformer et l’analyser.
L’activité de copie se connecte à vos sources de données et destinations, puis déplace les données efficacement entre elles. Voici comment le service gère le processus de copie :
- Se connecte à votre source : crée une connexion sécurisée pour lire des données à partir de votre magasin de données source.
- Traite les données : gère la sérialisation/désérialisation, la compression/décompression, le mappage de colonnes et les conversions de types de données en fonction de votre configuration.
- Écrit à la destination : transfère les données traitées à votre entrepôt de données de destination.
- Fournit une surveillance : effectue le suivi de l’opération de copie et fournit des journaux et des métriques détaillés pour la résolution des problèmes et l’optimisation.
Tip
Si vous n’avez besoin que de copier vos données et que vous n’avez pas besoin de transformations, une tâche de copie peut être une meilleure option pour vous. Les travaux de copie offrent une expérience simplifiée pour les scénarios de déplacement de données qui ne nécessitent pas la création d’un pipeline complet. Voir : vue d’ensemble des travaux de copie ou utiliser notre tableau de décision pour comparer l’activité de copie et le travail de copie.
Prerequisites
Pour commencer, vous devez remplir ces conditions préalables :
- Un compte de locataire Microsoft Fabric avec un abonnement actif. Créez un compte gratuitement.
- Un espace de travail compatible avec Microsoft Fabric.
Ajouter une activité Copy à l’aide de l’assistant de copie
Procédez comme suit pour configurer votre activité Copy à l’aide de assistant de copie.
Démarrer avec l’assistant de copie
Ouvrez un pipeline existant ou créez un nouveau pipeline.
Sélectionnez Copier les données sur le canevas pour ouvrir l’outil Assistant de copie pour commencer. Vous pouvez également sélectionner Utiliser l’assistant de copie dans la liste déroulante Copier les données sous l’onglet Activités du ruban.
Configurer votre source
Sélectionnez un type de source de données dans la catégorie. Vous allez utiliser Stockage Blob Azure comme exemple. Sélectionnez Stockage Blob Azure.
Créez une connexion à votre source de données en sélectionnant Créer une connexion.
Après avoir sélectionné Créer une connexion, renseignez les informations de connexion requises, puis sélectionnez Suivant. Pour plus d’informations sur la création de connexion pour chaque type de source de données, vous pouvez vous reporter à chaque article sur les connecteurs.
Si vous disposez déjà de connexions, vous pouvez sélectionner Une connexion existante et sélectionner votre connexion dans la liste déroulante.
Choisissez le fichier ou le dossier à copier dans cette étape de configuration de la source, puis sélectionnez Suivant.
Configurer votre destination
Sélectionnez un type de source de données dans la catégorie. Vous allez utiliser Stockage Blob Azure comme exemple. Vous pouvez créer une connexion liée à un nouveau compte Stockage Blob Azure en suivant les étapes de la section précédente ou utiliser une connexion existante dans la liste déroulante des connexions. Les fonctionnalités Tester la connexion et Modifier sont disponibles pour chaque connexion sélectionnée.
Configurez et mappez vos données sources à votre destination. Sélectionnez ensuite Suivant pour terminer vos configurations de destination.
Note
Vous ne pouvez utiliser qu’une seule passerelle de données locale au sein de la même activité Copy. Si la source et le récepteur sont des sources de données locales, ils doivent utiliser la même passerelle. Pour déplacer des données entre des sources de données locales avec différentes passerelles, vous devez copier à l’aide de la première passerelle vers une source cloud intermédiaire dans une activité de copie. Vous pouvez ensuite utiliser une autre activité Copy pour la copier à partir de la source cloud intermédiaire à l’aide de la deuxième passerelle.
Examiner et créer votre activité Copy
Passez en revue vos paramètres d’activité Copy dans les étapes précédentes, puis sélectionnez OK pour terminer. Vous pouvez également revenir aux étapes précédentes pour modifier vos paramètres si nécessaire dans l’outil.
Une fois terminée, l’activité de copie sera ajoutée à votre interface de pipeline. Tous les paramètres, y compris les paramètres avancés de cette activité Copy, sont disponibles sous les onglets lorsqu’ils sont sélectionnés.
Vous pouvez maintenant soit sauvegarder votre pipeline avec cette unique activité de copie, soit continuer à concevoir votre pipeline.
Ajouter une activité Copy directement
Suivez ces étapes pour ajouter directement une activité Copy.
Ajouter une activité Copy
Ouvrez un pipeline existant ou créez un nouveau pipeline.
Ajoutez une activité de copie en sélectionnant Ajouter une activité de pipeline>Activité Copy ou en sélectionnant Copier les données>Ajouter dans le canevas sous l’onglet Activités.
Configurer vos paramètres généraux sous l’onglet Général
Pour savoir comment configurer vos paramètres généraux, consultez Général.
Configurer votre source sous l’onglet Source
Dans Connexion, sélectionnez une connexion existante ou sélectionnez Plus pour créer une connexion.
Choisissez le type de source de données dans la fenêtre contextuelle. Vous allez utiliser Azure SQL Database comme exemple. Sélectionnez Azure SQL Database, puis Continuer.
Il accède à la page de création de connexion. Remplissez les informations de connexion requises dans le panneau, puis sélectionner Créer. Pour plus d’informations sur la création de connexion pour chaque type de source de données, vous pouvez vous reporter à chaque article sur les connecteurs.
Une fois votre connexion créée, elle vous ramène à la page du pipeline. Sélectionnez Ensuite Actualiser pour obtenir la connexion que vous avez créée dans la liste déroulante. Vous pouvez également choisir une connexion Azure SQL Database existante dans la liste déroulante directement si vous l’avez déjà créée. Les fonctionnalités Tester la connexion et Modifier sont disponibles pour chaque connexion sélectionnée. Sélectionnez ensuite Azure SQL Database dans type de Connexion.
Spécifiez une table à copier. Sélectionnez Aperçu des données pour afficher un aperçu de votre table source. Vous pouvez également utiliser Requête et Procédure stockée pour lire des données à partir de votre source.
Développez Avancé pour obtenir des paramètres plus avancés, tels que le délai d’expiration des requêtes ou le partitionnement. (Les paramètres avancés varient selon le connecteur.)
Configurer votre destination sous l’onglet Destination
Dans Connexion , sélectionnez une connexion existante, ou sélectionnez Plus pour créer une connexion. Il peut s’agir de votre magasin de données de première classe interne à partir de votre espace de travail, tel que Lakehouse ou vos magasins de données externes. Dans cet exemple, nous utilisons Lakehouse.
Une fois votre connexion créée, elle vous ramène à la page du pipeline. Sélectionnez Ensuite Actualiser pour obtenir la connexion que vous avez créée dans la liste déroulante. Vous pouvez également choisir une connexion Lakehouse existante dans la liste déroulante directement si vous l’avez déjà créée.
Spécifiez une table ou configurez le chemin du fichier pour définir le fichier ou le dossier comme destination. Ici, sélectionnez Tables et spécifiez une table pour écrire des données.
Développez Avancé pour obtenir des paramètres plus avancés, comme les lignes maximales par fichier ou l’action de table. (Les paramètres avancés varient selon le connecteur.)
Vous pouvez maintenant enregistrer votre pipeline avec cette activité de copie ou continuer à concevoir votre pipeline.
Configurer vos mappages sous l’onglet Mappage
Si le connecteur que vous utilisez prend en charge le mappage, vous pouvez accéder à l’onglet Mappage pour configurer votre mappage.
Sélectionnez Importer des schémas pour importer votre schéma de données.
Vous pouvez voir que le mappage automatique s’affiche. Spécifiez votre colonne Source et votre colonne Destination. Si vous créez une table dans la destination, vous pouvez personnaliser le nom de votre colonne Destination ici. Si vous souhaitez écrire des données dans la table de destination existante, vous ne pouvez pas modifier le nom de la colonne Destination existante. Vous pouvez également afficher le type de colonnes source et de destination.
Vous pouvez également sélectionner + Nouveau mappage pour ajouter un nouveau mappage, sélectionner Effacer pour effacer tous les paramètres de mappage, puis sélectionner Réinitialiser pour réinitialiser toutes les colonnes source de mappage.
Pour plus d’informations sur le mappage de type de données, consultez Mappage de type de données dans une activité de copie.
Configurer vos autres paramètres sous l’onglet Paramètres
L’onglet Paramètres contient les paramètres de performances, de mise en lots, etc.
Reportez-vous au tableau suivant pour une description de chaque paramètre.
| Setting | Description | Propriété de script JSON |
|---|---|---|
| Optimisation intelligente du débit | Spécifiez pour optimiser le débit. Vous pouvez choisir : • Auto • Standard • Équilibré • Maximum Lorsque vous choisissez Auto, le paramètre optimal est appliqué dynamiquement en fonction de votre paire source-destination et de votre modèle de données. Vous pouvez également personnaliser votre débit. La valeur personnalisée peut être comprise entre 2 et 256, tandis qu’une valeur plus élevée implique plus de gains. |
dataIntegrationUnits |
| Degré de parallélisme de copie | Spécifiez le degré de parallélisme utilisé par le chargement des données. | parallelCopies |
| Réglage des performances adaptatives (Aperçu) | Spécifiez si le service peut appliquer des optimisations de performances et un réglage en fonction de la configuration personnalisée. | réglage adaptatif des performances |
| Vérification de la cohérence des données | Si vous définissez true pour cette propriété, lors de la copie de fichiers binaires, l’activité de copie vérifie la taille des fichiers, lastModifiedDate et la somme de contrôle pour chaque fichier binaire copié de la source au magasin de destination pour garantir la cohérence des données entre la source et le magasin de destination. Lors de la copie de données tabulaires, l'activité de copie vérifie le nombre total de lignes une fois la tâche terminée, s'assurant que le nombre total de lignes lues à partir de la source est identique au nombre de lignes copiées vers la destination, plus le nombre de lignes incompatibles qui ont été ignorées. Veuillez noter que l'activation de cette option affecte les performances de copie. |
validateDataConsistency |
| Tolérance de panne | Lorsque vous sélectionnez cette option, vous pouvez ignorer certaines erreurs qui se produisent au milieu du processus de copie. Par exemple, les lignes incompatibles entre le magasin source et le magasin de destination, le fichier en cours de suppression pendant le déplacement des données, etc. | • activerIgnorerLigneIncompatible • skipErrorFile : fileMissing fileForbidden invalidFileName |
| Activer la journalisation | Lorsque vous sélectionnez cette option, vous pouvez journaliser les fichiers copiés, les fichiers ignorés et les lignes. | / |
| Activer la préproduction | Indiquez si vous souhaitez copier les données via un magasin de données intermédiaire. Activez la préproduction uniquement pour les scénarios utiles. | enableStaging |
| Pour l’espace de travail | ||
| Workspace | Spécifiez l’utilisation d’un stockage intermédiaire intégré. Vérifiez que le dernier utilisateur modifié du pipeline a au moins le rôle Contributeur attribué dans l’espace de travail. | / |
| Pour external | ||
| Connexion du compte de mise en lots | Spécifiez la connexion d’une instance Stockage Blob Azure ou Azure Data Lake Storage Gen2 faisant référence à l’instance de stockage que vous utilisez comme magasin de données intermédiaire. Créez une connexion intermédiaire si vous n’en avez pas. | connexion (sous externalReferences) |
| Chemin d’accès au stockage | Spécifiez le chemin dans lequel vous souhaitez placer les données intermédiaires. Si vous ne renseignez pas le chemin d’accès, le service crée un conteneur pour stocker les données temporaires. Ne spécifiez un chemin d’accès que si vous utilisez le stockage avec une signature d’accès partagé, ou si vous avez besoin de données temporaires dans un emplacement spécifique. | path |
| Activer la compression | Spécifie si les données doivent être compressées avant d’être copiées vers la destination. Ce paramètre réduit le volume de données transférées. | enableCompression |
| Preserve | Spécifiez s’il faut conserver les métadonnées/ACL lors de la copie des données. | preserve |
Note
Si vous utilisez une copie intermédiaire avec la compression activée, l’authentification du principal de service pour la connexion de blob intermédiaire n’est pas prise en charge.
Note
La mise en attente de l’espace de travail se termine après 60 minutes. Pour les travaux de longue durée, il est recommandé d’utiliser le stockage externe pour le stockage temporaire.
Configurer les paramètres dans une activité de copie
Les paramètres peuvent être utilisés pour contrôler le comportement d’un pipeline et de ses activités. Vous pouvez utiliser Ajouter du contenu dynamique pour spécifier des paramètres pour vos propriétés d’activité de copie. Prenons l’exemple de la spécification de Lakehouse/Data Warehouse pour voir comment l’utiliser.
Dans votre source ou destination, sélectionnez Utiliser du contenu dynamique dans la liste déroulante Connexion.
Dans le volet contextuel Ajouter du contenu dynamique, sous l’onglet Paramètres, sélectionnez +.
Spécifiez le nom de votre paramètre et attribuez-lui une valeur par défaut si vous le souhaitez, ou vous pouvez spécifier la valeur du paramètre lorsqu’il est déclenché dans le pipeline.
La valeur du paramètre doit être l’ID de connexion Lakehouse/Data Warehouse. Pour l’obtenir, ouvrez vos connexions et passerelles De gestion, choisissez la connexion Lakehouse/Data Warehouse que vous souhaitez utiliser, puis ouvrez Paramètres pour obtenir votre ID de connexion. Si vous souhaitez créer une connexion, vous pouvez sélectionner + Nouveau sur cette page ou accéder à la page de données via la liste déroulante Connexion .
Sélectionnez Enregistrer pour revenir au volet Ajouter du contenu dynamique. Sélectionnez ensuite votre paramètre pour qu’il apparaisse dans la zone Expression. Sélectionnez ensuite OK. Vous revenez à la page du pipeline et vous pouvez voir l’expression de paramètre spécifiée après La connexion.
Spécifiez l’ID de votre lakehouse ou de votre entrepôt de données. Pour trouver l’ID, accédez à votre lakehouse ou à votre entrepôt de données dans votre espace de travail. L’ID apparaît dans l’URL après
/lakehouses/ou/datawarehouses/.ID Lakehouse :
ID de l’entrepôt :
Spécifiez la chaîne de connexion SQL pour votre Entrepôt de données.