Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article décrit les configurations des pipelines serverless.
Databricks recommande de développer de nouveaux pipelines en utilisant des solutions sans serveur. Certaines charges de travail peuvent nécessiter la configuration du calcul classique ou l’utilisation du metastore Hive hérité. Consultez Configurer le calcul classique pour les pipelines et Utilisez les pipelines déclaratifs Spark Lakeflow avec un metastore Hive hérité.
Note
- Les pipelines serverless utilisent toujours le catalogue Unity. Consultez Utiliser le catalogue Unity avec des pipelines.
- Pour connaître les limitations du calcul sans serveur, consultez limitations du calcul sans serveur.
- Vous ne pouvez pas ajouter manuellement des paramètres de calcul dans un
clustersobjet dans la configuration JSON d’un pipeline serverless. Toute tentative en ce sens entraîne une erreur.
- Si vous devez utiliser une connexion Azure Private Link avec vos pipelines déclaratifs Spark Serverless Lakeflow, contactez votre représentant Databricks.
Spécifications
- Votre espace de travail doit avoir le catalogue Unity activé pour utiliser des pipelines serverless.
- Votre espace de travail doit se trouver dans une région compatible avec serverless.
Configuration recommandée pour les pipelines serverless
Important
L’autorisation de création de cluster n’est pas nécessaire pour configurer des pipelines serverless. Par défaut, tous les utilisateurs de l’espace de travail peuvent utiliser des pipelines serverless.
Les pipelines serverless suppriment la plupart des options de configuration, car Azure Databricks gère toutes les infrastructures. Lorsque vous créez un pipeline, la valeur par défaut consiste à utiliser serverless. Pour savoir comment configurer un pipeline sans serveur, consultez le guide Configurer des pipelines.
Vous pouvez également convertir des pipelines existants configurés avec Unity Catalog pour utiliser le modèle sans serveur. Voir la section Convertir un pipeline existant pour utiliser sans serveur.
Autres considérations relatives à la configuration
Les options de configuration suivantes sont également disponibles pour les pipelines serverless :
- Vous pouvez choisir d’utiliser le mode de pipeline Continu lors de l’exécution de pipelines en production. Consultez Mode pipeline déclenché ou continu.
- Ajoutez des notifications pour les mises à jour par e-mail en fonction des conditions de réussite ou d’échec. Consultez Ajouter des notifications par e-mail pour les événements de pipeline.
- Utilisez le champ Configuration pour définir des paires clé-valeur pour le pipeline. Ces configurations servent à deux fins :
- Définissez des paramètres arbitraires que vous pouvez référencer dans votre code source. Voir Utiliser des paramètres avec des pipelines.
- Configurez les paramètres de pipeline et les configurations Spark. Consultez la référence des propriétés du pipeline.
- Utilisez le canal Preview pour tester votre pipeline par rapport aux modifications du runtime des pipelines déclaratifs Lakeflow Spark en attente et aux nouvelles fonctionnalités à l'essai.
Stratégie budgétaire serverless
Important
Cette fonctionnalité est disponible en préversion publique.
Les politiques de budget sans serveur permettent à votre organisation d’appliquer des étiquettes personnalisées sur l’utilisation sans serveur pour une attribution détaillée des coûts. Une fois la case à cocher Serverless cochée , le paramètre de stratégie Budget s’affiche dans lequel vous pouvez sélectionner la stratégie que vous souhaitez appliquer au pipeline. Les balises sont héritées de la stratégie budgétaire serverless et peuvent uniquement être modifiées par les administrateurs de l’espace de travail.
Note
Une fois que vous avez reçu une politique budgétaire sans serveur, vos pipelines existants ne sont pas automatiquement associés à votre politique. Vous devez mettre à jour manuellement les pipelines existants si vous souhaitez y attacher une stratégie.
Pour plus d'informations sur les politiques de budget sans serveur, consultez l'article sur l'utilisation des attributs avec des politiques de budget sans serveur.
Sélectionner un mode de performances
Pour les pipelines déclenchés, vous pouvez sélectionner le mode de calcul sans serveur optimisé pour les performances à l'aide du paramètre Optimisé pour les performances dans le planificateur de pipelines. Lorsque ce paramètre est désactivé, le pipeline utilise le mode de performance standard. Le mode de performances standard est conçu pour réduire les coûts des charges de travail où une latence de lancement légèrement plus élevée est acceptable. Les charges de travail serverless utilisant le mode de performances standard démarrent généralement dans les quatre à six minutes après le déclenchement, en fonction de la disponibilité du calcul et de la planification optimisée.
Lorsque l’optimisation des performances est activée, votre pipeline est optimisé pour les performances, ce qui accélère le démarrage et l’exécution des charges de travail qui respectent le temps.
Les deux modes utilisent le même SKU, mais le mode de performance standard consomme moins de DBUs, ce qui reflète une utilisation inférieure des ressources informatiques.
Note
Pour utiliser le mode de performances standard dans les pipelines continus, contactez votre équipe de compte Databricks.
Fonctionnalités de pipeline sans serveur
En plus de simplifier la configuration, les pipelines serverless ont les fonctionnalités suivantes :
- Actualisation incrémentielle des vues matérialisées : les mises à jour des vues matérialisées sont actualisées de manière incrémentielle chaque fois que possible. L’actualisation incrémentielle a les mêmes résultats que la recomputation complète. La mise à jour utilise une actualisation complète si les résultats ne peuvent pas être calculés de manière incrémentielle. Consultez Actualisation incrémentielle pour les vues matérialisées.
- Traitement en pipeline des flux de données : pour améliorer l’utilisation, le débit et la latence des charges de travail de données en streaming telles que l’ingestion de données, les microlots sont traités en pipeline. En d’autres termes, au lieu d’exécuter des microbatches séquentiellement comme Spark Structured Streaming standard, les pipelines déclaratifs Spark Serverless Lakeflow Spark exécutent des microbatches simultanément, ce qui améliore l’utilisation des ressources de calcul. Le chaînage de flux est activé par défaut dans les pipelines serverless.
- Mise à l’échelle automatique verticale : les pipelines déclaratifs Lakeflow Spark sans serveur ajoutent à la mise à l’échelle automatique horizontale fournie par Databricks une mise à l’échelle automatique améliorée en allouant automatiquement les types d’instances les plus rentables qui peuvent exécuter votre pipeline sans échouer en raison d'insuffisance de mémoire. Consultez Qu’est-ce que la mise à l’échelle automatique verticale ?
Convertir un pipeline existant en utilisant serverless
Vous pouvez convertir des pipelines existants configurés avec le catalogue Unity en pipelines serverless. Terminez la procédure suivante :
- Dans la barre latérale de votre espace de travail Azure Databricks, cliquez sur Travaux & Pipelines.
- Cliquez sur le Nom du pipeline.
- Cliquez sur Paramètres.
- Dans la barre latérale droite, sous Calcul, cliquez sur
- Cochez la case à côté de Serverless.
- Cliquez sur Enregistrer.
Important
Lorsque vous activez le serverless, tous les paramètres de calcul que vous avez configurés pour un pipeline sont supprimés. Si vous basculez un pipeline vers des mises à jour sans serveur, vous devez reconfigurer les paramètres de calcul souhaités en fonction de la configuration du pipeline.
Comment puis-je trouver l’utilisation d'un DBU dans un pipeline serverless ?
Vous pouvez vérifier l'utilisation des DBU des pipelines déclaratifs Serverless Lakeflow Spark en interrogeant la table de l'utilisation facturable, qui fait partie des tables système Azure Databricks. Consultez Quelle est la consommation de DBU d’un pipeline serverless ?.