Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
La copie rapide vous aide à déplacer de grandes quantités de données plus rapidement dans Dataflow Gen2. Considérez-le comme un passage à un moteur plus puissant lorsque vous devez gérer les téraoctets de données.
Lorsque vous travaillez avec des dataflows, vous devez d’abord ingérer des données, puis les transformer. Avec l'extension horizontale du flux de données en utilisant le calcul SQL DW, vous pouvez transformer des données à grande échelle. Fast Copy s'occupe de la partie d'ingestion en vous offrant une expérience fluide de flux de données avec le puissant backend de l'activité de copie de pipeline.
Voici comment cela fonctionne : une fois que vous avez activé la copie rapide, les flux de données basculent automatiquement vers le back-end plus rapide lorsque la taille de vos données dépasse un certain seuil. Vous n’avez pas besoin de modifier quoi que ce soit lors de la création de vos dataflows. Après l’actualisation de votre dataflow, vous pouvez vérifier l’historique des actualisations pour voir si la copie rapide a été utilisée en examinant le type de moteur répertorié ici.
Si vous activez l’option Exiger une copie rapide , l’actualisation du flux de données s’arrête si la copie rapide ne peut pas être utilisée pour une raison quelconque. Cela vous permet d’éviter d’attendre un délai d’attente et peut être utile lors du débogage. Vous pouvez utiliser les indicateurs de copie rapide dans le volet étapes de requête pour vérifier si votre requête peut s’exécuter avec une copie rapide.
Prerequisites
Avant de pouvoir utiliser la copie rapide, vous aurez besoin des éléments suivants :
- Capacité du réseau de tissu
- Pour les données de fichier : fichiers CSV ou Parquet qui sont au moins 100 MB et stockés dans Azure Data Lake Storage (ADLS) Gen2 ou stockage Blob.
- Pour les bases de données (y compris Azure SQL DB et PostgreSQL) : 5 millions de lignes ou plus de données dans la source de données
Note
Vous pouvez contourner le seuil pour forcer la copie rapide en sélectionnant le paramètre Exiger une copie rapide .
Prise en charge du connecteur
La copie rapide fonctionne avec ces connecteurs Dataflow Gen2 :
- ADLS Gen2
- Le stockage Blob
- Azure SQL DB
- Lakehouse
- PostgreSQL
- Serveur SQL sur site
- Warehouse
- Oracle
- Snowflake
- Base de données SQL dans Fabric
Limitations de transformation
Lors de la connexion à des sources de fichiers, l’activité de copie prend uniquement en charge ces transformations :
- Combiner des fichiers
- Sélectionner des colonnes
- Changer les types de données
- Renommer une colonne
- Supprimer une colonne
Si vous avez besoin d’autres transformations, vous pouvez fractionner votre travail en requêtes distinctes. Créez une requête pour obtenir les données et une autre requête qui fait référence au premier. De cette façon, vous pouvez utiliser le calcul DW pour les transformations.
Pour les sources SQL, toute transformation qui fait partie de la requête native fonctionne correctement.
Destinations de sortie
Pour l'instant, la fonctionnalité de copie rapide ne supporte que le chargement direct vers une destination Lakehouse. Si vous souhaitez utiliser une autre destination de sortie, vous pouvez d’abord mettre en scène la requête et la référencer dans une requête ultérieure avec votre destination préférée.
Comment utiliser la copie rapide
Voici comment configurer et utiliser la copie rapide :
Dans Fabric, accédez à un espace de travail Premium et créez un Dataflow Gen2.
Sous l’onglet Accueil de votre nouveau dataflow, sélectionnez Options :
Dans la boîte de dialogue Options, sélectionnez l’onglet Échelle, puis activez Autoriser l’utilisation des connecteurs de copie rapide. Fermez la boîte de dialogue Options lorsque vous avez terminé.
Sélectionnez Obtenir des données, choisissez la source ADLS Gen2 et renseignez les détails de votre conteneur.
Sélectionnez le bouton Combiner .
Pour vous assurer que la copie rapide fonctionne, appliquez uniquement les transformations répertoriées dans la section prise en charge du connecteur . Si vous avez besoin d’autres transformations, effectuez d’abord l’étape des données et référencez la requête intermédiaire dans une requête ultérieure. Appliquez vos autres transformations à la requête référencée.
(Facultatif) Vous pouvez exiger une copie rapide pour la requête en cliquant avec le bouton droit sur la requête et en sélectionnant Exiger une copie rapide.
(Facultatif) Pour l’instant, vous ne pouvez configurer qu’un Lakehouse comme destination de sortie. Pour toute autre destination, indexez la requête et référencez-la ultérieurement dans une autre requête où vous pouvez générer une sortie vers n’importe quelle source.
Vérifiez les indicateurs de copie rapide pour vous assurer que votre requête peut s’exécuter avec une copie rapide. Si possible, le type Engine affiche CopyActivity.
Publiez le flux de données.
Une fois l’actualisation terminée, vérifiez que la copie rapide a été utilisée.
Comment fractionner votre requête pour utiliser une copie rapide
Lorsque vous travaillez avec de grandes quantités de données, vous pouvez obtenir les meilleures performances en utilisant une copie rapide pour ingérer des données en préproduction, puis la transformer à grande échelle avec le calcul SQL DW.
Les indicateurs de copie rapide vous aident à déterminer comment fractionner votre requête en deux parties : l’ingestion de données en mise en scène et la transformation à grande échelle avec le moteur SQL DW. Essayez de transférer le plus possible l'évaluation de votre requête vers une méthode de copie rapide pour l'ingestion des données. Lorsque les indicateurs de copie rapide montrent que les étapes restantes ne peuvent pas s'exécuter avec une copie rapide, vous pouvez fractionner le reste de la requête avec la mise en scène activée.
Indicateurs de diagnostic d’étape
| Indicator | Icon | Description |
|---|---|---|
| Cette étape sera évaluée avec une copie rapide |
|
L’indicateur de copie rapide indique que la requête jusqu’à cette étape prend en charge la copie rapide. |
| Cette étape n’est pas prise en charge par la copie rapide |
|
L’indicateur de copie rapide indique que cette étape ne prend pas en charge la copie rapide. |
| Une ou plusieurs des étapes de votre requête ne sont pas compatibles avec la copie rapide |
|
L’indicateur de copie rapide indique que certaines étapes de cette requête prennent en charge la copie rapide, tandis que d’autres ne le font pas. Pour optimiser, fractionnez la requête : étapes jaunes (potentiellement prises en charge par la copie rapide) et étapes rouges (non prises en charge). |
Conseils pas à pas
Une fois votre logique de transformation de données terminée dans Dataflow Gen2, l’indicateur de copie rapide évalue chaque étape pour déterminer le nombre d’étapes pouvant utiliser la copie rapide pour améliorer les performances.
Dans cet exemple, la dernière étape affiche une icône rouge, ce qui signifie que l'étape Group By n'est pas prise en charge par la copie rapide. Toutefois, toutes les étapes précédentes avec des icônes jaunes peuvent potentiellement être prises en charge par une copie rapide.
Si vous publiez et exécutez votre Dataflow Gen2 à ce stade, il n’utilise pas le moteur de copie rapide pour charger vos données.
Pour utiliser le moteur de copie rapide et améliorer vos performances Dataflow Gen2, vous pouvez fractionner votre requête en deux parties : l’ingestion de données en transformation intermédiaire et à grande échelle avec le calcul SQL DW. Voici comment procéder :
Supprimez les transformations montrant les icônes rouges (ce qui signifie qu’elles ne sont pas prises en charge par la copie rapide) ainsi que la destination (si vous en avez défini une).
L’indicateur de copie rapide affiche désormais vert pour les étapes restantes, ce qui signifie que votre première requête peut utiliser une copie rapide pour de meilleures performances.
Cliquez avec le bouton droit sur votre première requête, sélectionnez Activer la préproduction, puis sélectionnez à nouveau Référence.
Dans votre nouvelle requête référencée, ajoutez la transformation « Regrouper par » et la cible (si nécessaire).
Publiez et actualisez votre Dataflow Gen2. Vous avez maintenant deux requêtes dans votre Dataflow Gen2 et la durée globale est plus courte.
La première requête ingère des données dans la zone de préproduction en utilisant la copie rapide.
La deuxième requête effectue des transformations à grande échelle à l’aide du calcul SQL DW.
Les premiers détails de la requête :
Détails de la deuxième requête :
Limitations connues
Voici les limitations actuelles pour la copie rapide :
- Vous avez besoin d’une passerelle de données locale version 3000.214.2 ou ultérieure pour prendre en charge la copie rapide.
- Le schéma fixe n’est pas pris en charge.
- La destination basée sur un schéma n’est pas prise en charge