Partager via


Développer du code de pipeline dans votre environnement de développement local

Vous pouvez créer du code source de pipeline Python dans votre environnement de développement intégré (IDE) préféré.

Vous ne pouvez pas valider ou exécuter des mises à jour sur le code de pipeline écrit dans un IDE. Vous devez redéployer des fichiers de code source dans un espace de travail Azure Databricks et les configurer dans le cadre d’un pipeline.

Cet article fournit une vue d’ensemble de la prise en charge du développement IDE local. Pour un développement et des tests plus interactifs, Databricks recommande d’utiliser l’éditeur de pipelines Lakeflow. Consultez Développer et déboguer des pipelines ETL avec l’éditeur de pipelines Lakeflow.

configurer un IDE local pour le développement de pipelines

Databricks fournit un module Python pour le développement local distribué via PyPI. Pour obtenir des instructions d’installation et d’utilisation, consultez le stub Python pour DLT.

Ce module contient les interfaces et les références docstring pour l’interface Python du pipeline, en fournissant la vérification de la syntaxe, la saisie semi-automatique et la vérification du type de données lorsque vous écrivez du code dans votre IDE.

Ce module inclut des interfaces, mais aucune implémentation fonctionnelle. Vous ne pouvez pas utiliser cette bibliothèque pour créer ou exécuter des pipelines localement.

Vous pouvez utiliser databricks Asset Bundles pour empaqueter et déployer du code source et des configurations sur un espace de travail cible, et déclencher l’exécution d’une mise à jour sur un pipeline configuré de cette façon. Consultez Convertir un pipeline en projet Databricks Asset Bundle.

L’extension Databricks pour Visual Studio Code offre des fonctionnalités supplémentaires pour l’utilisation de pipelines à l’aide de bundles de ressources Databricks. Consultez Explorateur de packs de ressources.

Synchroniser le code de pipeline de votre IDE vers un espace de travail

Le tableau suivant récapitule les options de synchronisation du code source du pipeline entre votre IDE local et un espace de travail Azure Databricks :

Outil ou modèle Détails
Packs de ressources Databricks Utilisez databricks Asset Bundles pour déployer des ressources de pipeline allant d’un fichier de code source unique à des configurations pour plusieurs pipelines, travaux et fichiers de code source. Consultez Convertir un pipeline en projet Databricks Asset Bundle.
Extension Databricks pour Visual Studio Code Azure Databricks fournit une intégration à Visual Studio Code qui inclut une synchronisation facile entre votre IDE local et vos fichiers d’espace de travail. Cette extension fournit également des outils permettant d’utiliser des bundles de ressources Databricks pour déployer des ressources de pipelines. Consultez Présentation de l’extension Databricks pour Visual Studio Code.
Fichiers d’espace de travail Vous pouvez utiliser les fichiers d’espace de travail Databricks pour charger le code source de votre pipeline dans votre espace de travail Databricks, puis importer ce code dans un pipeline. Consultez l’article Que sont les fichiers d’espace de travail ?.
Dossiers Git Les dossiers Git vous permettent de synchroniser le code entre votre environnement local et votre espace de travail Azure Databricks à l’aide d’un référentiel Git comme intermédiaire. Consultez les dossiers Git Azure Databricks.