Partager via


Apportez votre propre traçabilité des données

Importante

Cette fonctionnalité est disponible en préversion publique.

Cette page explique comment mettre à jour la traçabilité des données pour inclure des ressources externes et des flux de travail exécutés en dehors d’Azure Databricks.

Unity Catalog capture automatiquement la traçabilité des données d’exécution entre les requêtes exécutées sur Azure Databricks. Toutefois, vous pouvez avoir des charges de travail qui s’exécutent en dehors d’Azure Databricks (par exemple, le premier mile ETL ou le dernier mile BI). Unity Catalog vous permet d’ajouter des métadonnées de traçabilité externe pour augmenter la traçabilité des données Azure Databricks qu’il capture automatiquement, ce qui vous donne une vue de traçabilité de bout en bout dans le catalogue Unity. Cela est utile lorsque vous souhaitez capturer l’endroit où les données proviennent (par exemple, Salesforce ou MySQL) avant d’être ingérées dans le catalogue Unity ou où les données sont consommées en dehors du catalogue Unity (par exemple, Tableau ou PowerBI).

Le graphique de traçabilité suivant montre une table PostgreSQL externe qui a été ingérée dans Azure Databricks en tant que table managée du catalogue Unity, avec trois colonnes transformées en une colonne release_date, puis interrogée à l'aide de PowerBI.

Traçabilité avec des métadonnées externes.

Pour obtenir des informations générales sur la traçabilité des données dans Azure Databricks, consultez Afficher la traçabilité des données à l’aide de Unity Catalog.

Spécifications

Pour ajouter des métadonnées de traçabilité externe dans le catalogue Unity, vous devez disposer des privilèges suivants, en fonction de la tâche spécifique :

  • Pour créer un objet sécurisable de métadonnées externes dans le catalogue Unity, vous devez disposer du CREATE EXTERNAL METADATA privilège sur le metastore.
  • Pour spécifier les relations de traçabilité entre un objet de métadonnées externe et tout autre objet Unity Catalog, vous devez disposer du MODIFY privilège sur l’objet de métadonnées externes.
  • Pour spécifier une relation de traçabilité en aval à un objet Catalogue Unity, vous devez disposer de privilèges de lecture sur l’objet (par exemple, SELECT sur une table).
  • Pour spécifier une relation de traçabilité en amont avec un objet Catalogue Unity, vous devez disposer de privilèges d’écriture sur l’objet (par exemple, MODIFY sur une table).

Ajouter des métadonnées de traçabilité externe

Pour ajouter des métadonnées de traçabilité externe :

  1. Créez un objet sécurisable de métadonnées externes dans le catalogue Unity.

    Cet objet représente une entité dans un système externe, tel qu’un tableau de bord dans Tableau.

  2. Configurez une relation de traçabilité entre l’objet de métadonnées externes et un autre objet catalogue Unity, tel qu’une table, un modèle, un chemin d’accès ou un autre objet de métadonnées externes.

    Lorsque vous avez créé des relations de traçabilité, l’objet de métadonnées externes apparaît dans la vue graphique de traçabilité.

Vous pouvez créer des objets de métadonnées externes et configurer des relations de traçabilité à l’aide de l’interface utilisateur de l’Explorateur de catalogue ou d’une API REST.

Créer un objet de métadonnées externes

Vous pouvez créer un objet de métadonnées externe à l’aide de l’Explorateur de catalogues ou de l’API de métadonnées externes.

Pour utiliser l’Explorateur de catalogues pour créer un objet de métadonnées externe :

  1. Dans votre espace de travail Azure Databricks, cliquez sur l’icône Données.Catalogue.

  2. Cliquez sur le bouton Données > externes, accédez à l’onglet Métadonnées externes, puis cliquez sur Créer des métadonnées externes.

  3. Spécifiez les détails des métadonnées.

    Requis :

    • Nom : entrez un nom facilement compréhensible qui aidera les utilisateurs d'Azure Databricks à comprendre ce qu'ils voient dans le lignage. Vous ne pouvez pas utiliser d’espaces.
    • Type de système : sélectionnez dans la liste des données externes courantes et des systèmes décisionnels. Si vous ne trouvez pas le vôtre, sélectionnez Personnalisé.
    • Type d’entité : entrez le type d’objet, tel que « table » ou « tableau de bord ».

    Facultatif :

    • URL : Entrez l’URL de l’objet si vous souhaitez permettre aux visualisateurs de graphique de traçabilité de cliquer sur la ressource externe (par exemple, un tableau de bord Tableau).
    • Description

    Avancé:

    • Colonnes : si vous souhaitez effectuer un mappage au niveau des colonnes de cet objet externe vers un autre objet Catalogue Unity, entrez les noms de colonnes. Sélectionnez l’interface utilisateur pour les entrer une à la fois ou entrée de texte pour entrer une liste délimitée par des virgules dans une seule zone de texte.
    • Propriétés : s’il existe d’autres propriétés que vous souhaitez suivre dans la traçabilité, entrez-les en tant que paires clé-valeur JSON. Vous pouvez utiliser l’interface utilisateur pour entrer chaque paire clé-valeur ou entrer un objet JSON complet.
  4. Cliquez sur Créer.

    Une boîte de dialogue vous donne la possibilité d’afficher l’objet de métadonnées externes ou de créer des relations de traçabilité pour l’objet.

Créer des relations de lignée

Vous pouvez créer des relations de traçabilité à l’aide de l’Explorateur de catalogues, de l’API de traçabilité externe ou du Kit de développement logiciel (SDK) Databricks pour Python.

Pour ajouter des relations entre un objet de métadonnées externe et d’autres objets de catalogue Unity :

  1. Suivez l’invite mentionnée ci-dessus ou recherchez l’objet de métadonnées externes existant dans l’Explorateur de catalogues :

    1. Cliquez sur l’icône Données.Catalogue
    2. Cliquez sur le bouton Données >externes
    3. Accédez à l’onglet Métadonnées externes et sélectionnez l’objet de métadonnées externes.
  2. Cliquez sur Créer une relation de traçabilité.

  3. Indiquez si vous souhaitez créer une relation en amont ou en aval.

  4. Entrez le type d’objet auquel vous souhaitez créer la relation :

    • Tableau : sélectionnez la table à l’aide de la boîte de dialogue de recherche.
    • Modèle : sélectionnez le modèle à l’aide de la boîte de dialogue de recherche, puis sélectionnez la version du modèle.
    • Chemin d’accès : pour les volumes ou les emplacements externes, entrez le chemin d’accès.
    • Métadonnées externes : sélectionnez l’objet de métadonnées externes dans le menu déroulant.
  5. (Facultatif) Cliquez sur Avancé pour ajouter :

    • Mappages de colonnes entre l’objet de métadonnées externes et l’objet source ou cible.
    • Autres métadonnées en tant que paires clé-valeur JSON. Par exemple, vous pouvez les utiliser pour entrer le texte de la requête qui a créé une table à partir de l’objet de métadonnées externes ou des annotations qui expliquent le flux de travail externe qui a généré la relation.
  6. Cliquez sur Créer.

Vous pouvez maintenant voir la relation de traçabilité externe sous l’onglet Traçabilité des objets associés.

Questions fréquentes sur la traçabilité externe

Databricks fournit-t-il automatiquement des connecteurs ou des analyseurs pour importer automatiquement des métadonnées de traçabilité externe ?

Non, la traçabilité externe n’est pas capturée automatiquement. Vous devez utiliser l’API REST ou l’Explorateur de catalogues pour ajouter une traçabilité externe.

La traçabilité externe que j’ajoute est-elle enregistrée dans la table système de traçabilité ?

Non, la traçabilité externe que vous ajoutez à l’aide de cette fonctionnalité ne peut pas être interrogée à partir de la table système de traçabilité. Vous devez appeler l’API REST pour récupérer la traçabilité externe par programmation.

Puis-je spécifier une relation de traçabilité entre deux tables inscrites dans le catalogue Unity à l’aide de cette fonctionnalité ?

Pour spécifier une relation de traçabilité entre deux tables inscrites dans le catalogue Unity, vous devez créer un objet de métadonnées externe qui se trouve entre eux. Vous pouvez spécifier une table en amont à l’objet de métadonnées externes et l’autre en aval pour qu’elle s’affiche comme connectée dans le graphique de traçabilité.

Puis-je utiliser cette fonctionnalité pour spécifier plusieurs niveaux de relations de traçabilité externe (par exemple, annoter des données qui passent par plusieurs systèmes avant d’entrer Databricks) ?

Oui, vous pouvez spécifier plusieurs niveaux de traçabilité externe en créant plusieurs objets sécurisables de métadonnées externes et en créant des relations de traçabilité externe avec chacun d’eux.

Puis-je ajouter une traçabilité externe au niveau des colonnes à l’aide de cette fonctionnalité ?

Oui, vous pouvez ajouter une traçabilité externe au niveau des colonnes. Vous devez spécifier des noms de colonnes lorsque vous créez l’objet sécurisable de métadonnées externes et spécifiez les mappages de colonnes source et cible lorsque vous configurez la relation de traçabilité externe.

Existe-t-il des limites pour la traçabilité externe ?

Oui, vous pouvez créer 10 000 objets de métadonnées externes et 100 000 relations de traçabilité externe par metastore. Consultez l’article Limites des ressources.