Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page explique comment créer des informations d’identification de stockage dans Unity Catalog pour se connecter à Azure Data Lake Storage. Pour plus d’informations sur les autres options de stockage cloud prises en charge par le catalogue Unity, consultez les options de stockage cloud prises en charge par le catalogue Unity.
Les informations d’identification de stockage contiennent des informations d’identification cloud à long terme qui permettent d’accéder au stockage cloud. Vous référencez les informations d’identification de stockage, ainsi que le chemin de stockage cloud, lorsque vous créez des emplacements externes dans le catalogue Unity pour régir l’accès au stockage externe.
Créer des informations d’identification de stockage qui accèdent à Azure Data Lake Storage
Vous pouvez utiliser une identité managée Azure ou un principal de service comme identité autorisant l’accès à votre conteneur de stockage. Les identités managées sont vivement recommandées. Ils ont l'avantage de permettre à Unity Catalog d'accéder aux comptes de stockage protégés par des règles réseau, ce qui n'est pas possible à l'aide d'identités de service, et ils suppriment la nécessité de gérer et de faire pivoter les secrets. Si vous souhaitez utiliser un principal de service, consultez Créer un stockage managé Unity Catalog à l’aide d’un principal de service (hérité).
Spécifications
Dans Azure Databricks :
- Un espace de travail Azure Databricks activé pour Unity Catalog.
-
CREATE STORAGE CREDENTIALautorisation sur le metastore Unity Catalog attaché à l’espace de travail. Les administrateurs de compte et les administrateurs de metastore disposent de ce privilège par défaut.
Dans votre locataire Azure :
Conteneur de stockage Azure Data Lake Storage. Pour éviter les frais de sortie, cela doit se trouver dans la même région que l’espace de travail à partir duquel vous souhaitez accéder aux données.
Le compte de stockage Azure Data Lake Storage doit avoir un espace de noms hiérarchique.
Contributeur ou Propriétaire d’un groupe de ressources Azure.
Propriétaire ou Utilisateur avec le rôle RBAC Azure Administrateur de l’accès utilisateur sur le compte de stockage.
Créer les informations d’identification de stockage
Dans le Portail Microsoft Azure, créez un connecteur d’accès Azure Databricks et attribuez-lui des autorisations sur le conteneur de stockage auquel vous souhaitez accéder, en suivant les instructions fournies dans Configurer une identité managée pour Unity Catalog.
Un connecteur d’accès Azure Databricks est une ressource Azure interne qui vous permet de connecter des identités managées à un compte Azure Databricks. Pour ajouter les informations d’identification de stockage, vous devez disposer du rôle Contributeur ou supérieur sur la ressource du connecteur d’accès dans Azure.
Notez l’ID de ressource du connecteur d’accès.
Connectez-vous à votre espace de travail Azure Databricks compatible avec le catalogue Unity en tant qu’utilisateur disposant du privilège
CREATE STORAGE CREDENTIAL.Les rôles d’administrateur de metastore et d’administrateur de compte incluent tous deux ce privilège.
Cliquez sur
Catalogue.
Cliquez sur le bouton Données >externes, accédez à l’onglet Informations d’identification, puis sélectionnez Créer des informations d’identification.
Sélectionnez les informations d’identification du stockage.
Sélectionnez un type d’informations d’identification d’identité managée Azure.
Entrez un nom pour les informations d’identification, puis entrez l’ID de ressource du connecteur d’accès au format :
/subscriptions/<subscription-id>/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>(Facultatif) Si vous avez créé le connecteur d’accès en utilisant une identité managée affectée par l’utilisateur, entrez l’ID de ressource de l’identité managée dans le champ ID d’identité managée affectée par l’utilisateur au format :
/subscriptions/<subscription-id>/resourceGroups/<resource-group-name>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<managed-identity-name>(Facultatif) Si vous souhaitez que les utilisateurs aient un accès en lecture seule aux emplacements externes utilisant ces informations d’identification de stockage, sélectionnez Lecture seule. Pour plus d’informations, consultez Marquer des informations d’identification de stockage en lecture seule.
Cliquez sur Créer.
(Facultatif) Lier l’identifiant de stockage à des espaces de travail spécifiques.
Par défaut, tout utilisateur privilégié peut se servir des informations d’identification du stockage sur n’importe quel espace de travail attaché au metastore. Si vous souhaitez autoriser l’accès uniquement à partir d’espaces de travail spécifiques, accédez à l’onglet Espaces de travail et attribuez des espaces de travail. Consultez (Facultatif) Attribuer un identifiant de stockage à des espaces de travail spécifiques.
Créez un emplacement externe référençant ces informations d’identification de stockage.
(Facultatif) Attribuer un identifiant de stockage à des espaces de travail spécifiques
Par défaut, les informations d’identification de stockage sont accessibles depuis tous les espaces de travail du metastore. Cela signifie que si un utilisateur a reçu un privilège (tel que CREATE EXTERNAL LOCATION) sur ces informations d’identification de stockage, il peut exercer ce privilège à partir d’un espace de travail attaché au metastore. Si vous utilisez des espaces de travail pour isoler l’accès aux données utilisateur, vous pouvez autoriser l’accès à des informations d’identification de stockage uniquement à partir d’espaces de travail spécifiques. Cette fonctionnalité est connue sous le nom de liaison d'espace de travail ou d'isolation de l'autorisation de stockage.
Un cas d’usage classique pour lier une autorisation de stockage à des espaces de travail spécifiques est le scénario dans lequel un administrateur cloud configure une autorisation de stockage en utilisant des identifiants de compte cloud de production, et vous voulez vous assurer que les utilisateurs d'Azure Databricks utilisent cette autorisation pour créer des emplacements externes uniquement dans l'espace de travail de production.
Pour plus d’informations sur la liaison d’espace de travail, consultez (Facultatif) Affecter un emplacement externe à des espaces de travail spécifiques et Limiter l’accès au catalogue à des espaces de travail spécifiques.
Remarque
Les liaisons de l’espace de travail sont référencées lorsque les privilèges sur les informations d’identification du stockage sont exercés. Par exemple, si un utilisateur crée un emplacement externe à l’aide d’informations d’identification de stockage, la liaison d’espace de travail sur les informations d’identification de stockage est vérifiée uniquement lorsque l’emplacement externe est créé. Une fois l’emplacement externe créé, il fonctionne indépendamment des liaisons d’espace de travail configurées sur les informations d’identification de stockage.
Lier des informations d’identification de stockage à un ou plusieurs espaces de travail
Pour affecter des informations d’identification de stockage à des espaces de travail spécifiques, vous pouvez utiliser Catalog Explorer ou Databricks CLI.
Autorisations requises : administrateur metastore, propriétaire des identifiants de stockage ou détenteur d'accès aux identifiants de stockage.
Remarque
Les administrateurs de metastore peuvent voir toutes les informations d’identification de stockage dans un metastore à l’aide de Catalog Explorer, et les propriétaires d’informations d’identification de stockage peuvent voir toutes les informations d’identification de stockage qu’ils possèdent dans un metastore, indépendamment du fait que les informations d’identification de stockage soient affectées à l’espace de travail actuel. Les identifiants de stockage qui ne sont pas affectés à l’espace de travail apparaissent en grisé.
Explorateur de catalogues
Connectez-vous à un espace de travail lié au metastore.
Dans la barre latérale, cliquez sur
Catalogue.
Cliquez sur le bouton Données >externes et accédez à l’onglet Informations d’identification.
Sélectionnez les informations d’identification de stockage et accédez à l’onglet Espaces de travail.
Sous l’onglet Espaces de travail , désactivez la case à cocher Tous les espaces de travail ont accès .
Si vos informations d’identification de stockage sont déjà liées à un ou plusieurs espaces de travail, cette case à cocher est déjà désactivée.
Cliquez sur Affecter à des espaces de travail, puis entrez ou recherchez les espaces de travail que vous souhaitez attribuer.
Pour révoquer l’accès, accédez à l’onglet Espaces de travail, sélectionnez l’espace de travail, puis cliquez sur Révoquer. Pour autoriser l’accès depuis tous les espaces de travail, cochez la case Tous les espaces de travail ont accès.
INTERFACE DE LIGNE DE COMMANDE
Il existe deux groupes de commandes Databricks CLI et deux étapes nécessaires pour affecter des informations d’identification de stockage à un espace de travail.
Dans les exemples suivants, remplacez <profile-name> par le nom de votre profil de configuration d’authentification Azure Databricks. Il doit inclure la valeur d’un jeton d’accès personnel, en plus du nom de l’instance de l’espace de travail et de l’ID d’espace de travail de l’espace de travail où vous avez généré le jeton d’accès personnel. Consultez l’authentification par jeton d’accès personnel (déconseillée).
Utilisez la commande
storage-credentialsdu groupe de commandesupdatepour définir les informations d’identification de stockage àisolation modeISOLATED.databricks storage-credentials update <my-storage-credential> \ --isolation-mode ISOLATED \ --profile <profile-name>La valeur par défaut
isolation-modeconcerneOPENtous les espaces de travail attachés au metastore.Utilisez la commande du groupe de commande
workspace-bindingspour affecter les espaces de travail aux identifiants de stockageupdate-bindings.databricks workspace-bindings update-bindings storage-credential <my-storage-credential> \ --json '{ "add": [{"workspace_id": <workspace-id>}...], "remove": [{"workspace_id": <workspace-id>}...] }' --profile <profile-name>Utilisez les propriétés
"add"et"remove"pour ajouter ou supprimer des liaisons d’espace de travail.Remarque
La liaison en lecture seule (
BINDING_TYPE_READ_ONLY) n’est pas disponible pour les informations d’identification de stockage. Par conséquent, il n’existe aucune raison de définirbinding_typepour la liaison d’informations d’identification de stockage.
Pour répertorier toutes les attributions d’espace de travail pour un identifiant de stockage, utilisez la commande workspace-bindings du groupe de commandes get-bindings :
databricks workspace-bindings get-bindings storage-credential <my-storage-credential> \
--profile <profile-name>
Dissocier des informations d’identification de stockage à partir d’un espace de travail
Les instructions pour révoquer l’accès d’un espace de travail à des informations d’identification de stockage en utilisant Catalog Explorer ou le groupe de commandes CLI workspace-bindings sont incluses dans Lier des informations d’identification de stockage à un ou plusieurs espaces de travail.
Étapes suivantes
Affichez, mettez à jour, supprimez et accordez à d’autres utilisateurs l’autorisation d’utiliser des informations d’identification de stockage. Consultez Gérer les informations d’identification de stockage.
Définissez des emplacements externes en utilisant un certificat de stockage. Veuillez consulter la rubrique Créer un emplacement externe pour connecter le stockage cloud à Azure Databricks.