Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Les bundles de ressources Databricks peuvent être créés et modifiés directement dans l’espace de travail.
Pour connaître les conditions requises pour l’utilisation d’offres groupées dans l’espace de travail, consultez Les bundles de ressources Databricks dans les conditions requises pour l’espace de travail.
Pour plus d’informations sur les offres groupées, consultez Qu’est-ce que databricks Asset Bundles ?.
Créer un bundle
Pour créer un bundle dans l’espace de travail Databricks :
Accédez au dossier Git dans lequel vous souhaitez créer votre bundle.
Cliquez sur le bouton Créer , puis sur Groupe de ressources. Vous pouvez également cliquer avec le bouton droit sur le dossier Git ou sur son kebab associé dans l’arborescence de l’espace de travail, puis cliquez sur Créer> unensemble de ressources :
Dans la boîte de dialogue Créer un bundle d'actifs, donnez un nom au bundle, tel que totally-awesome-bundle. Le nom du bundle ne peut contenir que des lettres, des chiffres, des traits d'union et des traits de soulignement.
Pour Modèle, choisissez si vous souhaitez créer un bundle vide, un bundle qui exécute un exemple de notebook Python ou un bundle qui exécute SQL. Si l’éditeur de pipelines Lakeflow est activé, vous verrez également une option permettant de créer un projet de pipeline ETL.
Certains modèles nécessitent une configuration supplémentaire. Cliquez sur Suivant pour terminer la configuration du projet.
Template Options de configuration Pipelines déclaratifs Lakeflow Spark - Catalogue par défaut à utiliser pour les données de pipeline
- Utiliser le schéma personnel (recommandé) pour chaque utilisateur qui collabore sur ce bundle
- Langue initiale des fichiers de code dans le pipeline
Python par défaut - Inclure un exemple de notebook
- Inclure un exemple de pipeline
- Inclure un exemple de package Python
- Utiliser le calcul sans serveur
SQL par défaut - Chemin d’accès de l’entrepôt SQL
- Catalogue initial
- Utiliser un schéma personnel
- Schéma initial pendant le développement
Cliquez sur Créer et déployer.
Cela crée un bundle initial dans le dossier Git, qui inclut les fichiers du modèle de projet que vous avez sélectionné, un .gitignore fichier de configuration Git et le fichier Databricks Asset Bundles databricks.yml requis. Le databricks.yml fichier contient la configuration principale de l’offre groupée. Pour plus d’informations, consultez la configuration de Databricks Asset Bundle.
Toutes les modifications apportées aux fichiers au sein de l’offre groupée peuvent être synchronisées avec le référentiel distant associé au dossier Git. Un dossier Git peut contenir de nombreux bundles.
Ajouter de nouveaux fichiers à un bundle
Un bundle contient le fichier databricks.yml qui définit les configurations de déploiement et d'espace de travail, les fichiers sources tels que les notebooks, les fichiers Python et les fichiers de test, ainsi que les définitions et paramètres pour les ressources Databricks, telles que les tâches Lakeflow et les pipelines déclaratifs Lakeflow Spark. Comme pour n’importe quel dossier d’espace de travail, vous pouvez ajouter de nouveaux fichiers à votre offre groupée.
Conseil / Astuce
Pour ouvrir un nouvel onglet dans la vue groupée qui vous permet de modifier les fichiers groupés, accédez au dossier du bundle dans l’espace de travail, puis cliquez sur Ouvrir dans l’éditeur à droite du nom du bundle.
Ajouter des fichiers de code source
Pour ajouter de nouveaux blocs-notes ou d’autres fichiers à un bundle dans l’interface utilisateur de l’espace de travail, accédez au dossier de bundle, puis :
- Cliquez sur Créer en haut à droite et choisissez l’un des types de fichiers suivants à ajouter à votre offre groupée : Notebook, File, Query, Dashboard.
- Vous pouvez également cliquer sur le kebab à gauche du partage et importer un fichier.
Remarque
Pour que le fichier fait partie du déploiement du bundle, après avoir ajouté un fichier à votre dossier groupé, vous devez l’ajouter à la databricks.yml configuration du bundle, ou créer un fichier de définition de travail ou de pipeline qui l’inclut. Consultez Ajouter une ressource existante à un bundle.
Ajouter une définition de travail
Les paquets contiennent des définitions pour les ressources telles que les travaux et les pipelines à inclure dans un déploiement. Ces définitions sont spécifiées dans YAML ou Python, et vous pouvez créer et modifier ces configurations directement dans l’interface utilisateur.
Pour créer un fichier de configuration groupé qui définit un travail :
Accédez au dossier de bundle dans l’espace de travail dans lequel vous souhaitez définir un nouveau travail.
Conseil / Astuce
Si vous avez déjà ouvert le bundle dans l’éditeur de l’espace de travail, vous pouvez utiliser la liste des contextes de création du navigateur d’espace de travail pour accéder au dossier de bundle. Consultez les contextes de création.
À droite du nom du bundle, cliquez sur Ouvrir dans l’éditeur pour accéder à la vue de l’éditeur de bundle.
Cliquez sur l’icône de déploiement du bundle pour basculer vers le panneau Déploiements .
Dans la section Ressources groupées , cliquez sur Ajouter, puis Nouvelle définition de travail.
Tapez un nom pour le travail dans le champ Nom du travail de la boîte de dialogue Créer une définition de travail . Cliquez sur Créer.
Ajoutez YAML au fichier de définition de travail créé. Un exemple de code YAML suivant définit une tâche qui exécute un notebook :
resources: jobs: run_notebook: name: run-notebook queue: enabled: true tasks: - task_key: my-notebook-task notebook_task: notebook_path: ../helloworld.ipynb
Pour plus d’informations sur la définition d’un travail dans YAML, consultez travail. Pour obtenir la syntaxe YAML pour d’autres types de tâches de travail pris en charge, consultez Ajouter des tâches à des travaux dans Databricks Asset Bundles.
Ajouter un pipeline
Pour ajouter un pipeline à votre offre groupée :
Accédez au dossier de bundle dans l’espace de travail où vous souhaitez définir un nouveau pipeline.
Conseil / Astuce
Si vous avez déjà ouvert le bundle dans l’éditeur de l’espace de travail, vous pouvez utiliser le menu contextuel de création du navigateur de l’espace de travail pour accéder au dossier du bundle. Consultez les contextes de création.
À droite du nom du bundle, cliquez sur Ouvrir dans l’éditeur pour accéder à la vue de l’éditeur de bundle.
Cliquez sur l’icône de déploiement du bundle pour basculer vers le panneau Déploiements .
Dans la section Ressources groupées , cliquez sur Ajouter, puis Nouvelle définition de pipeline ou Nouveau pipeline ETL si vous avez activé l’Éditeur de pipelines Lakeflow dans votre espace de travail. L’expérience de création de pipeline diffère pour ces deux options.
Créer une définition de pipeline
Si vous avez sélectionné nouvelle définition de pipeline dans le menu de création de ressources groupées :
- Tapez un nom pour le pipeline dans le champ Nom du pipeline de la boîte de dialogue Ajouter un pipeline à un bundle existant .
- Cliquez sur Ajouter et déployer.
Pour un pipeline portant le nom test_pipeline qui exécute un notebook, le fichier YAML suivant est créé dans un fichier test_pipeline.pipeline.yml:
resources:
pipelines:
test_pipeline:
name: test_pipeline
libraries:
- notebook:
path: ../test_pipeline.ipynb
serverless: true
catalog: main
target: test_pipeline_${bundle.environment}
Vous pouvez modifier la configuration pour exécuter un notebook existant. Pour plus d’informations sur la définition d’un pipeline dans YAML, consultez pipeline.
Créer un pipeline ETL
Si vous avez sélectionné un nouveau pipeline ETL dans le menu de création de ressources groupées :
Tapez un nom pour le pipeline dans le champ Nom de la fenêtre de dialogue Ajouter un pipeline à un bundle existant. Le nom doit être unique dans l’espace de travail.
Pour le champ Utiliser un schéma personnel , sélectionnez Oui pour les scénarios de développement et Non pour les scénarios de production.
Sélectionnez un catalogue par défaut et un schéma par défaut pour le pipeline.
Choisissez une langue pour le code source du pipeline.
Cliquez sur Ajouter et déployer.
Passez en revue les détails dans la boîte de dialogue Déployer vers développement, puis cliquez sur Déployer.
Un pipeline ETL est créé avec des exemples de tables d’exploration et de transformation.
Pour un pipeline portant le nom rad_pipeline, le yaML suivant est créé dans un fichier rad_pipeline.pipeline.yml. Ce pipeline est configuré pour s’exécuter avec un calcul sans serveur.
resources:
pipelines:
rad_pipeline:
name: rad_pipeline
libraries:
- glob:
include: transformations/**
serverless: true
catalog: main
schema: ${workspace.current_user.short_name}
root_path: .
Ajouter une ressource existante à un bundle
Vous pouvez ajouter des ressources existantes telles que des pipelines, ainsi que des éléments tels que des notebooks et d'autres fichiers sources, à votre offre groupée. Toutefois, vous devez les définir dans la configuration de l’offre groupée pour les inclure dans votre déploiement de bundle. L’exemple suivant ajoute un pipeline existant à un bundle.
En supposant que vous disposez d’un pipeline nommé taxifilter qui exécute le taxifilter.ipynb notebook dans votre espace de travail partagé :
Dans la barre latérale de votre espace de travail Azure Databricks, cliquez sur Travaux & Pipelines.
Vous pouvez, si vous le souhaitez, sélectionner les filtres Pipelines et Qui m'appartiennent.
Sélectionnez le pipeline existant
taxifilter.Dans la page du pipeline, cliquez sur le kebab à gauche du bouton Mode de déploiement de développement . Cliquez ensuite sur Afficher les paramètres YAML.
Cliquez sur l’icône de copie pour copier la configuration de paquet du pipeline.
Accédez à votre offre groupée dans l’espace de travail.
Cliquez sur l’icône de déploiement du bundle pour basculer vers le panneau Déploiements .
Dans la section Ressources groupées , cliquez sur Ajouter, puis Nouvelle définition de pipeline.
Remarque
Si vous voyez plutôt un élément de menu Nouveau pipeline ETL, alors l’éditeur de pipelines Lakeflow est activé. Pour ajouter un pipeline ETL à un bundle, consultez Créer un pipeline contrôlé par la source.
Tapez
taxifilterdans le champ Nom du pipeline de la boîte de dialogue Ajouter un pipeline à un bundle existant. Cliquez sur Créer.Collez la configuration du pipeline existant dans le fichier. Cet exemple de pipeline est défini pour exécuter le carnet de notes
taxifilter:resources: pipelines: taxifilter: name: taxifilter catalog: main libraries: - notebook: path: /Workspace/Shared/taxifilter.ipynb target: taxifilter_${bundle.environment}
Vous pouvez maintenant déployer l’offre groupée, puis exécuter la ressource de pipeline via l’interface utilisateur.