Partager via


Utiliser le calcul partitionné dans Dataflow Gen2 (préversion)

Note

Le calcul partitionné est actuellement en préversion et disponible uniquement dans Dataflow Gen2 avec CI/CD.

Le calcul partitionné est une fonctionnalité du moteur Dataflow Gen2 qui permet aux parties de votre logique de flux de données de s’exécuter en parallèle, ce qui réduit le temps nécessaire pour effectuer ses évaluations.

Scénarios de calcul partitionné où le moteur de flux de données peut optimiser efficacement les opérations qui permettent de partitionner la source de données et de traiter chaque partition en parallèle. Par exemple, dans un scénario où vous vous connectez à plusieurs fichiers stockés dans azure Data Lake Storage Gen2, vous pouvez partitionner la liste des fichiers de votre source, récupérer efficacement la liste partitionnée de fichiers à l’aide du pliage des requêtes, utiliser l’expérience combiner des fichiers et traiter tous les fichiers en parallèle.

Note

Seuls les connecteurs pour Azure Data Lake Storage Gen2, Fabric Lakehouse, Folder et Stockage Blob Azure émettent le script approprié pour utiliser le calcul partitionné. Le connecteur pour SharePoint ne le prend pas en charge aujourd’hui.

Comment définir le calcul partitionné

Pour utiliser cette fonctionnalité, vous devez :

Activer les paramètres de dataflow

Dans l’onglet Accueil du ruban, sélectionnez le bouton Options pour afficher sa boîte de dialogue. Accédez à la section Mise à l’échelle et activez le paramètre qui lit Autoriser l’utilisation du calcul partitionné.

Capture d’écran du paramètre de calcul partitionné à l’intérieur de la section mise à l’échelle de la boîte de dialogue Options.

L’activation de cette option a deux objectifs :

  • Permet à votre dataflow d’utiliser le calcul partitionné s’il est découvert par le biais de vos scripts de requête

  • Les expériences telles que les fichiers combinés créent désormais automatiquement des clés de partition qui peuvent être utilisées pour le calcul partitionné

Vous devez également activer le paramètre dans la section Confidentialité pour autoriser la combinaison de données à partir de plusieurs sources.

Requête avec clé de partition

Note

Pour utiliser le calcul partitionné, vérifiez que votre requête est définie pour être intermédiaire.

Après avoir activé le paramètre, vous pouvez utiliser l’expérience combiner des fichiers pour une source de données qui utilise la vue du système de fichiers telle qu’Azure Data Lake Storage Gen2. Lorsque l'expérience de combinaison de fichiers se termine, vous remarquez que votre requête a une étape ajoutée personnalisée qui a un script similaire à ceci :

let
    rootPath = Text.TrimEnd(Value.Metadata(Value.Type(#"Filtered hidden files"))[FileSystemTable.RootPath]?, "\"),
    combinePaths = (path1, path2) => Text.Combine({Text.TrimEnd(path1, "\"), path2}, "\"),
    getRelativePath = (path, relativeTo) => Text.Middle(path, Text.Length(relativeTo) + 1),
    withRelativePath = Table.AddColumn(#"Filtered hidden files", "Relative Path", each getRelativePath(combinePaths([Folder Path], [Name]), rootPath), type text),
    withPartitionKey = Table.ReplacePartitionKey(withRelativePath, {"Relative Path"})
in
    withPartitionKey

Ce script, et plus précisément le composant withPartitionKey, pilote la logique de comment votre Dataflow tente de partitionner vos données et comment il tente d’évaluer les éléments en parallèle.

Vous pouvez utiliser la fonction Table.PartitionKey sur l'étape Ajoutée personnalisée. Cette fonction retourne la clé de partition de la table spécifiée. Dans le cas ci-dessus, il s’agit de la colonne RelativePath. Vous pouvez obtenir une liste distincte des valeurs de cette colonne pour comprendre toutes les partitions qui seront utilisées pendant l’exécution du flux de données.

Important

Il est important que la colonne de clé de partition reste dans la requête afin que le calcul partitionné soit appliqué.

Considérations et recommandations

  • Pour les scénarios où votre source de données ne prend pas en charge l'intégration des transformations pour vos fichiers, il est recommandé de préférer le calcul partitionné à la copie rapide.

  • Pour des performances optimales, utilisez cette méthode pour charger des données directement dans la zone de transit en tant que destination ou vers un Entrepôt Fabric.

  • Utilisez l’exemple de fichier de transformation à partir de l’expérience Combiner des fichiers pour introduire des transformations qui doivent se produire dans chaque fichier.

  • Le calcul partitionné prend uniquement en charge un sous-ensemble de transformations. Les performances peuvent varier en fonction de votre source et de votre ensemble de transformations utilisées.

  • La facturation de l’exécution du flux de données est basée sur la consommation de l’unité de capacité (CU).