Partager via


Mettre à niveau des espaces de travail Azure Databricks vers le catalogue Unity

Cette page donne une vue d’ensemble de la mise à niveau d’un espace de travail de catalogue non Unity vers le catalogue Unity. Il fournit également des instructions pour la migration hors du metastore Hive local de l’espace de travail hérité.

Vue d’ensemble des étapes de mise à niveau

Pour effectuer une mise à niveau vers le catalogue Unity, vous devez :

  1. Provisionnez des identités (utilisateurs, groupes et principaux de service) directement sur votre compte Azure Databricks, si vous ne le faites pas déjà. Désactivez tout approvisionnement d’identité au niveau de l’espace de travail.
  2. Convertissez tous les groupes locaux d’espace de travail en groupes au niveau du compte. Unity Catalog centralise la gestion des identités au niveau du compte.
  3. Attachez l’espace de travail à un metastore du catalogue Unity. Si aucun metastore n’existe pour votre région d’espace de travail, un administrateur de compte doit en créer un.
  4. Mettez à niveau les tables et les vues gérées dans le metastore Hive vers le catalogue Unity.
  5. Accordez aux utilisateurs, groupes ou principaux de service au niveau du compte l’accès aux tables mises à niveau.
  6. Mise à jour des requêtes et des travaux pour faire référence aux nouvelles tables Unity Catalog à la place des anciennes tables du metastore Hive.
  7. Désactivez le metastore Hive. Consultez Désactiver l’accès au metastore Hive utilisé par votre espace de travail Azure Databricks.

UCX, qui est un projet Databricks Labs, propose des outils qui vous aident à mettre à niveau votre espace de travail non Unity Catalog vers Unity Catalog. UCX est un bon choix pour les migrations à grande échelle. Consultez Utiliser les utilitaires UCX pour mettre à niveau votre espace de travail vers Unity Catalog.

Avant de commencer

Avant de commencer, vous devez vous familiariser avec les concepts de base de Unity Catalog, notamment les metastores et le stockage géré. Consultez Qu’est-ce que Unity Catalog ?.

Vous devez également vérifier que vous répondez aux exigences suivantes :

  • Pour la plupart des étapes de configuration, vous devez être administrateur de compte Azure Databricks. Pour toutes les tâches qui suivent pour lesquelles il existe d’autres exigences d’autorisation, elles sont répertoriées dans la documentation spécifique à la tâche.

    Le premier administrateur du compte Azure Databricks doit être un administrateur général Microsoft Entra ID au moment où il se connecte pour la première fois à la console de compte Azure Databricks. Lors de la première connexion, cet utilisateur devient administrateur de compte Azure Databricks et n’a plus besoin du rôle Administrateur général Microsoft Entra ID pour accéder au compte Azure Databricks. Le premier administrateur de compte peut attribuer des utilisateurs dans le locataire Microsoft Entra ID comme administrateurs de compte supplémentaires (qui peuvent eux-mêmes attribuer d’autres administrateurs de compte). Les administrateurs de compte supplémentaires ne nécessitent pas de rôles spécifiques dans Microsoft Entra ID.

  • Les espaces de travail que vous attachez au métastore doivent figurer dans le plan Azure Databricks Premium.

Mise à niveau vers des démonstrations de catalogue Unity

Regardez les démonstrations courtes et guidées suivantes pour voir les tâches de mise à niveau clés en action. Chaque démonstration couvre une étape spécifique et des liens vers une documentation détaillée le cas échéant.

Vous pouvez également suivre la démonstration Utiliser UCX pour effectuer une mise à niveau vers le catalogue Unity.

Approvisionner des utilisateurs, des groupes et des principaux de service sur votre compte

Le catalogue Unity fait référence aux identités au niveau du compte. Avant d’attacher un metastore à votre espace de travail, vous devez effectuer les opérations suivantes :

  • Si vous utilisez SCIM pour approvisionner des utilisateurs, des groupes et des principaux de service de votre fournisseur d’identité vers votre espace de travail, désactivez-le et configurez l’approvisionnement sur votre compte Azure Databricks à la place. Voir Synchronisation des identités à partir de votre fournisseur d’identité et Identités.

  • Mettre à jour toute automatisation qui a été configurée pour gérer les utilisateurs, les groupes et les principaux de service, tels que les connecteurs de provisionnement SCIM et l’automatisation Terraform, afin qu’ils fassent référence aux points de terminaison de compte plutôt qu’aux points de terminaison d’espace de travail. Consultez Approvisionnement SCIM au niveau du compte et de l’espace de travail.

Convertir des groupes locaux d’espace de travail en groupes au niveau du compte

Consultez Migrer des groupes locaux d’espace de travail vers des groupes de comptes.

Attacher votre espace de travail à un metastore

Si votre espace de travail n’est pas activé pour Unity Catalog (attaché à un metastore), l’étape suivante varie selon qu’un metastore Unity Catalog est déjà défini ou non pour votre région d’espace de travail :

  • Si votre compte dispose déjà d’un metastore Unity Catalog défini pour la région de votre espace de travail, vous pouvez simplement attacher votre espace de travail au metastore existant. Accédez à Activer un espace de travail pour le catalogue Unity.
  • S’il n’existe aucun metastore du catalogue Unity défini pour la région de votre espace de travail, vous devez créer un metastore, puis attacher l’espace de travail. Accédez à Accéder à Créer un metastore de catalogue Unity.

Mettre à niveau les tables de votre metastore Hive vers les tables Unity Catalog

Si votre espace de travail était en service avant d’être activé pour le catalogue Unity, il dispose d’un metastore Hive qui contient probablement des données que vous souhaitez continuer à utiliser. Databricks vous recommande de mettre à niveau les tables gérées par le metastore Hive vers le metastore Du catalogue Unity.

Vous pouvez effectuer une mise à niveau progressive en fédérant votre metastore Hive. Voir la section suivante.

Vous pouvez mettre à niveau des tables directement à l’aide des instructions de Mise à niveau des tables Hive et des vues vers le Catalogue Unity.

(Facultatif) Fédérer votre metastore Hive pour continuer à travailler avec celui-ci

Si votre espace de travail dispose d’un metastore Hive qui contient des données que vous souhaitez continuer à utiliser, et que vous choisissez de ne pas suivre la recommandation de mettre à niveau toutes les tables gérées par le metastore Hive vers le metastore Du catalogue Unity, vous pouvez continuer à utiliser des données dans le metastore Hive en la fédérant en tant que catalogue étranger dans le catalogue Unity. Consultez Fédération du métastore Hive : activez le catalogue Unity pour gérer les tables inscrites dans un métastore Hive.

Accorder l’accès aux tables mises à niveau ou fédérées

Accordez aux utilisateurs, groupes ou principaux de service au niveau du compte l’accès aux nouvelles tables. Consultez Gérer les privilèges dans Unity Catalog.

Mettre à jour les requêtes et les travaux pour travailler avec vos tables et chemins d’accès aux données mis à niveau

Pendant que vous passez du metastore Hive local à l’espace de travail vers le catalogue Unity, vous pouvez continuer à utiliser des requêtes et des travaux qui référencent les données inscrites dans le metastore Hive, à l’aide de la fédération de metastore Hive (recommandé) ou de la syntaxe décrite dans Work with the legacy Hive metastore en plus du catalogue Unity. Toutefois, vous devez mettre à jour toutes les requêtes et travaux pour utiliser les tables et la syntaxe du catalogue Unity.

De même, mettez à jour les requêtes et les travaux qui utilisent l’accès basé sur le chemin d’accès aux fichiers pour utiliser des volumes catalogue Unity à la place.

Pour obtenir des recommandations détaillées, consultez Mettre à jour les travaux lorsque vous mettez à niveau des espaces de travail hérités vers le catalogue Unity.