Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article donne une vue d’ensemble générale de l’architecture Azure Databricks, y compris son architecture d’entreprise en combinaison avec Azure.
Objets Databricks
Un compte Azure Databricks est la construction de niveau supérieur que vous utilisez pour gérer Azure Databricks au sein de votre organisation. Au niveau du compte, vous gérez :
- Identité et accès : utilisateurs, groupes, principaux de service et approvisionnement d’utilisateurs.
Gestion de l’espace de travail : créez, mettez à jour et supprimez des espaces de travail dans plusieurs régions.
Gestion des metastores du catalogue Unity : créez et attachez un metastore à des espaces de travail.
Gestion de l’utilisation : facturation, conformité et stratégies.
Un compte peut contenir plusieurs espaces de travail et des metamagasins du catalogue Unity.
Les espaces de travail sont l’environnement de collaboration dans lequel les utilisateurs exécutent des charges de travail de calcul telles que l’ingestion, l’exploration interactive, les travaux planifiés et la formation ML.
Les metastores du catalogue Unity sont le système de gouvernance central pour les ressources de données telles que les tables et les modèles ML. Vous organisez les données dans un metastore sous un espace de noms à trois niveaux :
<catalog-name>.<schema-name>.<object-name>
Les metastores sont attachés aux espaces de travail. Vous pouvez lier un metastore unique à plusieurs espaces de travail Azure Databricks dans la même région, ce qui donne à chaque espace de travail la même vue de données. Les contrôles d’accès aux données peuvent être gérés dans tous les espaces de travail liés.
Architecture de l’espace de travail
Azure Databricks fonctionne à partir d’un plan de contrôle et d’un plan de calcul.
Le plan de contrôle comprend les services back-end qu’Azure Databricks gère dans votre compte Azure Databricks. L’application web se trouve dans le plan de contrôle.
Le plan de calcul est l’endroit où vos données sont traitées. Il existe deux types de plans de calcul en fonction du calcul que vous utilisez.
- Pour les calculs serverless, les ressources de calcul serverless s’exécutent dans un plan de calcul serverless dans votre compte Azure Databricks.
- Pour les calculs Azure Databricks classiques, les ressources de calcul se trouvent dans votre abonnement Azure dans ce qu’on appelle le plan de calcul classique. Ce terme fait référence au réseau de votre abonnement Azure et à ses ressources.
Pour en savoir plus sur le calcul classique et le calcul serverless, consultez Calcul.
Architecture d’espace de travail classique
Les espaces de travail Azure Databricks classiques ont un compte de stockage associé appelé compte de stockage d’espace de travail. Le compte de stockage d’espace de travail est situé dans votre abonnement Azure.
Le diagramme suivant décrit l’architecture Générale d’Azure Databricks pour les espaces de travail classiques.
Architecture de l’espace de travail sans serveur
Le stockage d’espace de travail dans les espaces de travail serverless est stocké dans le stockage par défaut de l’espace de travail. Vous pouvez également vous connecter à votre compte de stockage cloud pour accéder à vos données. Le diagramme suivant décrit l’architecture générale pour les espaces de travail serverless.
Plan de calcul serverless
Dans le plan de calcul serverless, les ressources de calcul Azure Databricks s’exécutent dans une couche de calcul au sein de votre compte Azure Databricks. Azure Databricks crée un plan de calcul serverless dans la même région Azure que le plan de calcul classique de votre espace de travail. Sélectionnez cette région lors de la création d’un espace de travail.
Pour protéger les données client dans le plan de calcul serverless, le calcul serverless s’exécute dans une limite réseau pour l’espace de travail, avec différentes couches de sécurité pour isoler différents espaces de travail clients Azure Databricks et des contrôles réseau supplémentaires entre les clusters du même client.
Pour en savoir plus sur la mise en réseau dans le plan de calcul serverless, consultez Mise en réseau d’un plan de calcul serverless.
Plan de calcul classique
Dans le plan de calcul classique, les ressources de calcul Azure Databricks s’exécutent dans votre abonnement Azure. De nouvelles ressources de calcul sont créées dans le réseau virtuel de chaque espace de travail dans l’abonnement Azure du client.
Un plan de calcul classique a une isolation naturelle, car il s’exécute dans le propre abonnement Azure de chaque client. Pour en savoir plus sur la mise en réseau dans le plan de calcul classique, consultez Mise en réseau d’un plan de calcul classique.
Pour la prise en charge régionale, consultez Régions Azure Databricks.
Stockage d’espace de travail
Le stockage d’espace de travail est géré différemment en fonction du type de votre espace de travail. Pour plus d’informations sur les types d’espace de travail, consultez Créer un espace de travail.
Espaces de travail serverless
Les espaces de travail serverless utilisent le stockage par défaut, qui est un emplacement de stockage entièrement géré pour les données système de votre espace de travail et les catalogues Unity Catalog. Les espaces de travail serverless prennent également en charge la possibilité de se connecter à vos emplacements de stockage cloud. Consultez stockage par défaut dans Databricks.
Espaces de travail classiques
Le compte de stockage d’espace de travail contient les éléments suivants :
- Données système d’espace de travail : les données système d’espace de travail sont générées lorsque vous utilisez différentes fonctionnalités Azure Databricks, telles que la création de notebooks. Ce compartiment inclut les révisions de notebook, les détails des exécutions de travaux, les résultats des commandes et les journaux Spark
- Catalogue Unity de l'espace de travail : si votre espace de travail a été activé automatiquement pour Unity Catalog, le compte de stockage de l'espace de travail contient le catalogue par défaut de l'espace de travail. Tous les utilisateurs de votre espace de travail peuvent créer des ressources dans le schéma par défaut dans ce catalogue. Consultez Bien démarrer avec Unity Catalog.
- DBFS (hérité) : le répertoire racine de DBFS et les montages DBFS sont des fonctions héritées et pourraient être désactivés dans votre espace de travail. DBFS (Databricks File System) est un système de fichiers distribué dans les environnements Azure Databricks accessibles sous l’espace
dbfs:/de noms. La racine et les montages DBFS se trouvent tous les deux dans l’espace de nomsdbfs:/. Le stockage et l’accès aux données à l’aide de la racine DBFS ou des montages DBFS est un modèle déconseillé et non recommandé par Databricks. Pour plus d’informations, consultez l’article Qu’est-ce que DBFS ?.
Pour limiter l’accès à votre compte de stockage d’espace de travail à partir de ressources et réseaux autorisés uniquement, consultez l’article Activer la prise en charge de pare-feu pour votre compte de stockage d’espace de travail.