Créer un cluster Spark
Vous pouvez créer un ou plusieurs clusters dans votre espace de travail Azure Databricks à l’aide de l’interface utilisateur de l’espace de travail Azure Databricks.
Quand vous créez le cluster, vous pouvez spécifier des paramètres de configuration, notamment :
- Nom du cluster.
-
Mode de cluster, qui peut être :
- Standard : Adapté aux charges de travail mono-utilisateurs qui nécessitent plusieurs nœuds Worker.
- Haute Concurrence : adapté aux charges de travail où plusieurs utilisateurs utiliseront le cluster en même temps.
- Nœud unique : adapté aux petites charges de travail ou aux tests, où un seul nœud Worker est requis.
- Version du Runtime Databricks à utiliser dans le cluster ; qui détermine la version de Spark et des composants individuels tels que Python, Scala et d’autres qui sont installés.
- Type de machine virtuelle utilisée pour les nœuds worker du cluster.
- Nombres minimal et maximal de nœuds worker dans le cluster.
- Type de machine virtuelle utilisée pour le nœud pilote dans le cluster.
- Indique si le cluster prend en charge la mise à l’échelle automatique pour redimensionner dynamiquement le cluster.
- Temps d’inactivité du cluster avant son arrêt automatique.
Comment Azure gère les ressources de cluster
Quand vous créez un espace de travail Azure Databricks, une appliance Databricks est déployée comme ressource Azure dans votre abonnement. Quand vous créez un cluster dans l’espace de travail, vous spécifiez les types et tailles des machines virtuelles à utiliser pour les nœuds pilote et worker ainsi que d’autres options de configuration, mais Azure Databricks gère tous les autres aspects du cluster.
L’appliance Databricks est déployée dans Azure en tant que groupe de ressources managé au sein de votre abonnement. Ce groupe de ressources contient les machines virtuelles pilote et worker, ainsi que d’autres ressources nécessaires, comme un réseau virtuel, un groupe de sécurité et un compte de stockage. Toutes les métadonnées, comme celles relatives aux travaux planifiés, sont stockées dans une base de données Azure avec géoréplication pour la tolérance de panne.
Azure Databricks est divisé en deux plans principaux : le plan de contrôle, qui se compose de services principaux (par exemple, l’interface utilisateur web) gérés par Microsoft et le plan de calcul, où vos charges de travail de données s’exécutent. Il existe deux variantes de calcul : le calcul classique, qui utilise votre propre abonnement Azure et votre réseau virtuel (offrant une isolation à l’intérieur de votre abonnement) et le calcul serverless, qui s’exécute dans l’environnement managé de Databricks, mais toujours dans la même région Azure que votre espace de travail, avec des contrôles de réseau et de sécurité pour isoler entre les clients. Chaque espace de travail dispose d’un compte de stockage dans votre abonnement qui contient les données système (notebooks, journaux, métadonnées de travail), le système de fichiers distribué (DBFS) et les ressources de catalogue (si unity Catalog est activé), avec des contrôles supplémentaires pour la mise en réseau, le pare-feu et l’accès pour garantir la sécurité et l’isolation appropriée.
Remarque
Vous avez également la possibilité d’attacher votre cluster à un pool de nœuds inactifs pour réduire le temps de démarrage du cluster. Pour plus d’informations, consultez Pools dans la documentation Azure Databricks.