Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Microsoft Fabric prend désormais en charge les profils de ressources Spark prédéfinis, un moyen simple et puissant pour les ingénieurs de données d’optimiser les configurations Spark en fonction des besoins en charge de travail. Ces profils permettent aux utilisateurs d’appliquer rapidement les meilleures pratiques d'optimisation pour les profils courants tels que les charges de travail lecture intensive, écriture intensive, ou hybride, à l’aide d’une approche basée sur des ensembles de propriétés.
Que vous ingériez des téraoctets de données en continu ou exécutiez des requêtes d'analyse hautes performances, les profils de ressources permettent de parcourir rapidement le chemin vers la performance sans nécessiter un réglage manuel de Spark.
Avantages des profils de ressources
- ✅ Performances par défaut : appliquez les paramètres Spark éprouvés et optimisés pour la charge de travail.
- ✅ Flexibilité : choisissez ou personnalisez des profils en fonction de vos modèles d’ingestion et de requête.
- ✅ Configurations Spark affinées : évitez le réglage d’essai et d’erreur et réduisez la surcharge opérationnelle.
Remarque
- Tous les nouveaux espaces de travail Fabric sont désormais mis par défaut au
writeHeavyprofil pour optimiser les performances d’ingestion. Cela inclut les configurations par défaut adaptées aux flux de travail ETL et de streaming de données à grande échelle. - Si le profil writeHeavy est utilisé, VOrder est désactivé par défaut et doit être activé manuellement.
Profils de ressources disponibles
Les profils suivants sont actuellement pris en charge dans Microsoft Fabric :
| profil | Cas d'utilisation | Propriété de configuration |
|---|---|---|
readHeavyForSpark |
Optimisé pour les charges de travail Spark avec des lectures fréquentes | spark.fabric.resourceProfile = readHeavyForSpark |
readHeavyForPBI |
Optimisé pour les requêtes Power BI sur des tables Delta | spark.fabric.resourceProfile = readHeavyForPBI |
writeHeavy |
Optimisé pour l'injection à haute fréquence et les opérations d'écriture | spark.fabric.resourceProfile = writeHeavy |
custom |
Configuration entièrement définie par l’utilisateur | spark.fabric.resourceProfile = custom |
Valeurs de configuration par défaut pour chaque profil
| Profil de ressource | Configurations |
|---|---|
writeHeavy |
{"spark.sql.parquet.vorder.default": "false", "spark.databricks.delta.optimizeWrite.enabled": "null", "spark.databricks.delta.optimizeWrite.binSize": "128", "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true"} |
readHeavyForPBI |
{"spark.sql.parquet.vorder.default": "true", "spark.databricks.delta.optimizeWrite.enabled": "true", "spark.databricks.delta.optimizeWrite.binSize": "1g"} |
readHeavyForSpark |
{"spark.databricks.delta.optimizeWrite.enabled": "true", "spark.databricks.delta.optimizeWrite.partitioned.enabled": "true", "spark.databricks.delta.optimizeWrite.binSize": "128"} |
custom (par exemple, fastIngestProfile) |
Paramètres entièrement définis par l’utilisateur. Exemple : {"spark.sql.shuffle.partitions": "800", "spark.sql.adaptive.enabled": "true", "spark.serializer": "org.apache.spark.serializer.KryoSerializer"} |
Conseil / Astuce
Vous pouvez nommer votre profil personnalisé avec un nom explicite qui reflète votre modèle de charge de travail, comme fastIngestProfile ou lowLatencyAnalytics.
Guide pratique pour configurer des profils de ressources
Vous pouvez configurer des profils de ressources dans Microsoft Fabric à l’aide de deux méthodes différentes :
1. Configuration des profils de ressources à l’aide d’environnements
Vous pouvez définir le profil de ressource Spark par défaut au niveau de l’environnement. Lorsqu'il est appliqué, le profil sélectionné sera automatiquement utilisé pour tous les travaux Spark au sein de l’environnement, sauf s'il est remplacé.
Étapes :
- Accédez à votre espace de travail Fabric.
- Modifiez ou créez un environnement.
- Sous Configurations Spark, définissez la propriété suivante
- spark.fabric.resourceProfile = writeHeavy ou readHeavyForPBI ou readHeavyForSpark, ou vous pouvez choisir votre propre nom de profil et le personnaliser avec des configurations en fonction de vos besoins.
- Vous pouvez choisir un profil existant et également modifier les valeurs par défaut, comme par exemple choisir readHeavyForSpark et augmenter la taille de bloc de 128 à 256.
2. Configuration des profils de ressources au moment de l’exécution avec spark.conf.set
Vous pouvez également remplacer le profil de ressource par défaut lors de l’exécution du bloc-notes ou des exécutions de travaux Spark à l’aide de :
spark.conf.set("spark.fabric.resourceProfile", "readHeavyForSpark")
Cette approche offre une flexibilité d’exécution pour modifier le comportement en fonction de la logique de travail, de la planification ou du type de charge de travail, ce qui permet d’utiliser différents profils pour différentes parties d’un notebook.
Remarque
Si les configurations d’environnement et d’exécution sont définies, les paramètres d’exécution sont prioritaires.
Que se passe-t-il par défaut ?
Tous les espaces de travail nouvellement créés dans Microsoft Fabric utilisent par défaut le writeHeavy profil. Cela garantit les points suivants :
- Gestion efficace des pipelines d’ingestion de données
- Débit optimisé pour les travaux de traitement par lots et de streaming
- Meilleures performances optimisées dès le départ pour les charges de travail ETL courantes
Si votre charge de travail diffère (par exemple, requêtes interactives, service de tableau de bord), vous pouvez mettre à jour les paramètres par défaut au niveau de l’environnement ou les remplacer dynamiquement pendant l’exécution.
⚠️ Important :
Sur tous les nouveaux espaces de travail Fabric,VOrderest désactivé par défaut (spark.sql.parquet.vorder.default=false).
Cette configuration par défaut est optimisée pour les charges de travail d’ingénierie de données lourdes en écriture, ce qui améliore les performances pendant l’ingestion et la transformation à grande échelle.Pour les scénarios optimisés en lecture (par exemple, les tableaux de bord Power BI ou les requêtes Spark interactives), envisagez de basculer vers les profils de ressources
readHeavyforSparkoureadHeavyForPBIou de modifier les propriétés en activantVOrderpour améliorer les performances des requêtes à partir des charges de travail Power BI et des entrepôts de données.