Partager via


Guide pratique pour créer des pools Spark personnalisés dans Microsoft Fabric

Cet article vous montre comment créer des pools Apache Spark personnalisés dans Microsoft Fabric pour vos charges de travail d’analytique. Les pools Apache Spark vous permettent de créer des environnements de calcul personnalisés en fonction de vos besoins, ce qui vous permet d’obtenir des performances et une utilisation optimales des ressources.

Spécifiez les nœuds minimum et maximal pour la mise à l’échelle automatique. Le système acquiert et met hors service les nœuds à mesure que les besoins de calcul de votre travail changent, de sorte que l'évolutivité est optimisée et les performances s’améliorent. Les pools Spark ajustent automatiquement le nombre d’exécuteurs. Vous n’avez donc pas besoin de les définir manuellement. Le système modifie le nombre d’exécuteurs en fonction des besoins de calcul du volume de données et du travail. Vous pouvez donc vous concentrer sur vos charges de travail plutôt que sur le réglage des performances et la gestion des ressources.

Conseil / Astuce

Lorsque vous configurez des pools Spark, la taille du nœud est déterminée par les unités de capacité (CU), qui représentent la capacité de calcul affectée à chaque nœud. Pour plus d’informations sur les tailles de nœud et cu, consultez la section Options de taille de nœud dans ce guide.

Prerequisites

Pour créer un pool Spark personnalisé, vérifiez que vous disposez d’un accès administrateur à l’espace de travail. L’administrateur de capacité active l’option Pools d’espaces de travail personnalisés dans la section Calcul Spark des paramètres d’administrateur de capacité. Pour plus d’informations, consultez Paramètres de calcul Spark pour les capacités réseau.

Créer des pools Spark personnalisés

Pour créer ou gérer le pool Spark associé à votre espace de travail :

  1. Accédez à votre espace de travail et sélectionnez Paramètres de l’espace de travail.

  2. Sélectionnez l’option Data Engineering/Science pour développer le menu, puis sélectionnez paramètres Spark.

    Capture d’écran montrant l’affichage des détails des paramètres Spark.

  3. Sélectionnez l’option Nouveau Pool. Dans l’écran Créer un pool, nommez votre pool Spark. Choisissez également lefamille de nœuds , puis sélectionnez une taille de nœud parmi les tailles disponibles (petite, moyenne, grand, X-Large et XX-Large) en fonction des besoins de calcul de vos charges de travail.

    Capture d’écran montrant les options de création de pool personnalisées.

  4. Vous pouvez définir la configuration minimale des nœuds pour vos pools personnalisés sur 1. Étant donné que Fabric Spark fournit une disponibilité restaurable pour les clusters avec un seul nœud, vous n’avez pas à vous soucier des échecs de tâches, de la perte de la session en cas de défaillance ou de payer trop pour le calcul pour des tâches Spark plus petites.

  5. Vous pouvez activer ou désactiver la mise à l’échelle automatique pour vos pools Spark personnalisés. Lorsque la mise à l’échelle automatique est activée, le pool acquiert dynamiquement de nouveaux nœuds jusqu’à la limite maximale de nœuds spécifiée par l’utilisateur, puis les met hors service après l’exécution du travail. Cette fonctionnalité garantit de meilleures performances en ajustant les ressources en fonction des exigences du travail. Vous êtes autorisé à dimensionner les nœuds, qui s’intègrent dans les unités de capacité achetées dans le cadre de la référence SKU de capacité Fabric.

    Capture d’écran montrant les options de création de pool personnalisées pour la mise à l’échelle automatique et l’allocation dynamique.

  6. Vous pouvez ajuster le nombre d’exécuteurs à l’aide d’un curseur. Chaque exécuteur est un processus Spark qui exécute des tâches et contient des données en mémoire. L’augmentation des exécuteurs peut améliorer le parallélisme, mais elle augmente également la taille et le temps de démarrage du cluster. Vous pouvez également choisir d’activer l’allocation d’exécuteur dynamique pour votre pool Spark, qui détermine automatiquement le nombre optimal d’exécuteurs dans la limite maximale spécifiée par l’utilisateur. Cette fonctionnalité ajuste le nombre d’exécuteurs en fonction du volume de données, ce qui améliore les performances et l’utilisation des ressources.

Ces pools personnalisés ont une durée depause automatique par défaut de 2 minutes après l’expiration de la période d’inactivité. Une fois la durée de mise en pause automatique atteinte, la session expire et les clusters ne sont pas alloués. Vous êtes facturé en fonction du nombre de nœuds et de la durée pendant laquelle les pools Spark personnalisés sont utilisés.

Remarque

Les pools Spark personnalisés dans Microsoft Fabric prennent actuellement en charge une limite de nœud maximale de 200. Lors de la configuration de la mise à l’échelle automatique ou de la définition du nombre de nœuds manuels, assurez-vous que vos valeurs minimales et maximales restent dans cette limite. Le dépassement de cette limite entraîne des erreurs de validation lors de la création ou de la mise à jour du pool.

Options de taille de nœud

Lorsque vous configurez un pool Spark personnalisé, vous choisissez parmi les tailles de nœud suivantes :

Taille du nœud vCores Mémoire (Go) Descriptif
Petit 4 32 Pour les travaux de développement et de test légers.
Moyenne 8 64 Pour les charges de travail générales et les opérations classiques.
grand 16 128 Pour les tâches gourmandes en mémoire ou les tâches de traitement de données volumineuses.
X-Large 32 256 Pour les charges de travail Spark les plus exigeantes qui nécessitent des ressources importantes.
  • Pour en savoir plus, consultez la documentation publique d’Apache Spark .
  • Prise en main des paramètres d'administration de l’espace de travail Spark dans Microsoft Fabric.