Partager via


Développer sur Databricks

Les utilisateurs développeurs Databricks regroupent les scientifiques des données, les ingénieurs données, les analystes données, les ingénieurs Machine Learning ainsi que les ingénieurs DevOps et MLOps, tous créant des solutions et des intégrations pour étendre et personnaliser Databricks en fonction de leurs besoins spécifiques. Outre les nombreuses fonctionnalités d’engineering données et API Databricks disponibles dans l’espace de travail, les utilisateurs développeurs Databricks disposent également de nombreux outils pour se connecter à Databricks et développer localement.

Cet article fournit une vue d’ensemble des API et des outils accessibles aux utilisateurs développeurs Databricks.

Commencer à coder dans l’espace de travail

Développer dans l’espace de travail est un excellent moyen de se familiariser rapidement avec les API Databricks. Databricks prend en charge Python, SQL, Scala, R et d’autres fonctionnalités axées sur le développement dans l’espace de travail, notamment des outils et des utilitaires pratiques.

Voici quelques pistes pour commencer :

Créer des applications et des solutions personnalisées

Azure Databricks fournit des outils pour l’espace de travail et le développement local. Dans l’espace de travail, vous pouvez créer des applications à l’aide de l’interface utilisateur. Les données sont facilement accessibles dans des fichiers d’espace de travail et des volumes Unity Catalog, et des fonctionnalités réservées à l’espace de travail comme l’Assistant Databricks pour le débogage sont disponibles. Enfin, vous avez accès à d’autres fonctionnalités riches telles que les notebooks, et le contrôle de source est disponible avec les dossiers Git.

Vous pouvez également développer des solutions personnalisées à l’aide d’un IDE sur votre ordinateur local pour bénéficier des fonctionnalités complètes d’un environnement de développement riche. Le développement local prend en charge un éventail plus large de langages, ce qui signifie que des fonctionnalités dépendantes du langage telles que le débogage et les infrastructures de test sont disponibles pour prendre en charge des projets plus importants, ainsi qu’un accès direct au contrôle de code source.

Pour obtenir des suggestions sur l’utilisation des outils, consultez Quel outil de développement dois-je utiliser ?

Fonctionnalité Descriptif
Authentifier et autoriser Configurez l’authentification et l’autorisation pour que vos outils, scripts et applications fonctionnent avec Azure Databricks.
Databricks Apps Créez des applications personnalisées et sécurisées dans le domaine des données et de l’IA sur la plateforme Databricks, et partagez-les avec d’autres utilisateurs.
Extension Databricks pour Visual Studio Code Connectez-vous à vos espaces de travail Azure Databricks distants à partir de Visual Studio Code pour faciliter la configuration de votre connexion à l’espace de travail Databricks et une interface utilisateur pour la gestion des ressources Databricks.
Plug-in Databricks PyCharm Configurez une connexion à un espace de travail Databricks distant et exécutez des fichiers sur des clusters Databricks à partir de PyCharm. Ce plug-in est développé et fourni par JetBrains en partenariat avec Databricks.
Kits SDK Databricks Automatisez vos interactions avec Databricks à l’aide d’un kit SDK au lieu d’appeler directement les API REST. Les kits SDK sont également disponibles dans l’espace de travail.

Se connecter à Databricks

La connexion à Databricks est un composant nécessaire de nombreuses intégrations et solutions, et Databricks vous permet de choisir parmi une vaste sélection d’outils de connexion. Le tableau suivant fournit des outils pour connecter vos processus et votre environnement de développement à vos ressources et à votre espace de travail Azure Databricks.

Fonctionnalité Descriptif
Databricks Connect Connectez-vous à Azure Databricks à l’aide d’environnements de développement intégrés (IDE) connus tels que PyCharm, IntelliJ IDEA, Eclipse, RStudio et JupyterLab.
Extension Databricks pour Visual Studio Code Configuration simple de votre connexion à l’espace de travail Databricks et interface utilisateur pour la gestion des ressources Databricks.
Pilotes et outils SQL Connectez-vous à Azure Databricks pour exécuter des commandes et des scripts SQL, interagissez par programmation avec Azure Databricks et intégrez des fonctionnalités SQL Azure Databricks à des applications écrites dans des langages connus tels que Python, Go, JavaScript et TypeScript.

Conseil

Vous pouvez également connecter bon nombre d’autres outils tiers connus à des clusters et à des entrepôts SQL pour accéder à des données dans Azure Databricks. Consultez les partenaires technologiques.

Gérer l’infrastructure et les ressources

Les développeurs et les ingénieurs données peuvent choisir parmi les outils suivants pour automatiser l’approvisionnement et la gestion de l’infrastructure et des ressources. Ces outils prennent en charge les scénarios de pipeline CI/CD simples et complexes.

Pour obtenir des suggestions sur l’utilisation des outils, consultez Quel outil de développement dois-je utiliser ?

Fonctionnalité Descriptif
Interface CLI Databricks Accédez à la fonctionnalité Azure Databricks à l’aide de l’interface de ligne de commande (CLI) Databricks. L’interface CLI encapsule l’API REST Databricks. Ainsi, au lieu d’envoyer des appels d’API REST directement avec curl ou Postman, vous pouvez utiliser l’interface CLI Databricks pour interagir avec Databricks. Utilisez l’interface CLI à partir d’un terminal local ou utilisez-la à partir du terminal web de l’espace de travail.
Packs de ressources Databricks Définissez et gérez les ressources Databricks et votre pipeline CI/CD en utilisant les meilleures pratiques de développement, de test et de déploiement standard pour vos projets de données et d’IA avec des Packs de ressources Databricks, une fonctionnalité de l’interface CLI Databricks.
Fournisseur Databricks Terraform et Terraform CDKTF pour Databricks Approvisionnez l’infrastructure et les ressources Azure Databricks à l’aide de Terraform.
Outils CI/CD Intégrez des infrastructures et des systèmes CI/CD connus tels que GitHub Actions, Jenkins et Apache Airflow.

Collaborer et partager du code

Parmi les nombreuses autres fonctionnalités de collaboration de l’espace de travail, Databricks propose les fonctionnalités suivantes pour aider spécifiquement les utilisateurs développeurs souhaitant collaborer et partager du code dans l’espace de travail :

Fonctionnalité Descriptif
Fonctions définies par l’utilisateur Développez des fonctions définies par l’utilisateur (UDF) pour réutiliser et partager du code.
Dossiers Git Configurez Dossiers Git pour gérer les versions et le contrôle de code source de vos fichiers de projet Databricks.

Interagir avec la communauté des développeurs Databricks

Databricks dispose d’une communauté de développeurs active soutenue par les programmes et ressources suivants :