Partager via


Classification des données

Important

Cette fonctionnalité est disponible en préversion publique.

Cette page explique comment utiliser databricks Data Classification in Unity Catalog pour classifier et baliser automatiquement les données sensibles dans votre catalogue.

Les catalogues de données peuvent avoir une grande quantité de données, contenant souvent des données sensibles connues et inconnues. Il est essentiel que les équipes de données comprennent le type de données sensibles qui existe dans chaque table afin qu’elles puissent régir et démocratiser l’accès à ces données.

Pour résoudre ce problème, Databricks Data Classification utilise un agent IA pour classifier et étiqueter automatiquement les tables dans votre catalogue. Cela vous permet de découvrir des données sensibles et d’appliquer des contrôles de gouvernance sur les résultats, à l’aide d’outils tels que le contrôle d’accès basé sur les attributs du catalogue Unity (ABAC). Pour obtenir la liste des balises prises en charge, consultez balises de classification prises en charge.

À l’aide de cette fonctionnalité, vous pouvez :

  • Classifier les données : le moteur utilise un système IA agentique pour classifier et étiqueter automatiquement toutes les tables dans le catalogue Unity.
  • Optimisez les coûts grâce à l’analyse intelligente : le système détermine intelligemment quand analyser vos données en tirant parti du catalogue Unity et du moteur d’intelligence des données. Cela signifie que l’analyse est incrémentielle et optimisée pour garantir que toutes les nouvelles données sont classées sans configuration manuelle.
  • Passez en revue et protégez les données sensibles : l’affichage des résultats vous aide à afficher les résultats de classification et à protéger les données sensibles en étiquetant et en créant des stratégies de contrôle d’accès pour chaque classe.

Important

Databricks Data Classification utilise le stockage par défaut pour stocker les résultats de classification. Vous n’êtes pas facturé pour le stockage.

Databricks Data Classification utilise un modèle de langage volumineux (LLM) pour faciliter la classification.

Spécifications

Remarque

La classification des données est une fonctionnalité en préversion au niveau de l’espace de travail, et elle ne peut être gérée que par un administrateur d’espace de travail ou de compte. Pour obtenir des instructions, consultez Gérer les préversions d’Azure Databricks.

Important

Le modèle qui alimente cette fonction est mis à disposition à l’aide des API Foundation Model Serving de Mosaic AI. Llama 3.1 est titulaire d’une licence de la communauté Llama 3.1, Copyright © Meta Platforms, Inc. Tous les droits réservés. Pour plus d’informations, consultez les licences et conditions des développeurs de modèles applicables.

Si les modèles émergent à l’avenir qui fonctionnent mieux en fonction des benchmarks internes de Databricks, Databricks peut modifier les modèles et mettre à jour la documentation.

  • Vous devez activer le calcul serverless. Voir Se connecter à un calcul sans serveur.
  • Pour activer la classification des données, vous devez posséder le catalogue ou avoir USE_CATALOG et MANAGE des privilèges dessus.
  • Pour afficher le tableau des résultats, vous devez disposer des autorisations suivantes : USE CATALOG et USE SCHEMA, plus SELECT sur la table. Consultez la table système des résultats.

Utiliser la classification des données

Pour utiliser la classification des données sur un catalogue :

  1. Accédez au catalogue, puis cliquez sur l’onglet Détails .

    Onglet Détails de la page catalogue dans l’Explorateur de catalogues.

  2. Cliquez sur le bouton bascule Classification des données pour l’activer.

  3. La boîte de dialogue Activer la classification des données s’affiche. Par défaut, tous les schémas sont inclus. Pour inclure uniquement certains schémas, sélectionnez-les dans le menu déroulant Schémas.

    Paramètres modals pour la classification des données.

  4. Cliquez sur Activer.

Cela crée un travail en arrière-plan qui analyse de façon incrémentielle toutes les tables du catalogue ou des schémas sélectionnés.

Le moteur de classification s’appuie sur l’analyse intelligente pour déterminer quand analyser une table. Les nouvelles tables et colonnes d’un catalogue sont généralement analysées dans les 24 heures suivant la création.

Afficher les résultats de la classification

Pour afficher les résultats de classification, cliquez sur Afficher les résultats en regard du bouton bascule.

Voir le bouton résultats pour la classification des données.

Une page de résultats s’ouvre, affichant les résultats de classification pour toutes les tables du catalogue. Pour sélectionner un autre catalogue, utilisez le sélecteur en haut à gauche de la page. Un entrepôt SQL sans serveur est requis et se trouve en haut à droite de la page.

La page de résultats répertorie les étiquettes de classification identifiées dans le catalogue. Toutes les stratégies ABAC existantes qui référencent les balises système de classification des données (class.xx) apparaissent dans le tableau.

Page Résultats montrant la table des classes détectées.

Pour passer en revue les résultats d’une balise de classification spécifique, cliquez sur Vérifier dans la colonne la plus à droite de la ligne correspondante.

Résultats montrant des colonnes avec des classifications détectées.

Un panneau s’affiche, affichant les tables pour lesquelles la classification des données a détecté la balise de classification avec une confiance élevée. Passez en revue les tables, les colonnes et les exemples de valeurs. Les exemples de valeurs s’affichent uniquement si vous avez accès à la table de résultats. Consultez la table système des résultats.

Si les colonnes identifiées correspondent à vos attentes, vous pouvez activer l’étiquetage automatique de la balise de classification pour ce catalogue. Lorsque l’étiquetage automatique est activé, toutes les détections existantes et futures de cette classification sont marquées.

Pour activer l’étiquetage automatique, activez étiquetage automatique avec .... Vous pouvez désactiver ultérieurement l’étiquetage automatique en utilisant le même bouton. Lorsque vous désactivez l’étiquetage, aucune étiquette future n’est appliquée, mais les balises existantes ne sont pas supprimées.

Remarque

Lorsque vous activez l’étiquetage automatique, les balises ne sont pas immédiatement remplies. Ils seront renseignés lors de l'analyse suivante, qui devrait prendre effet dans les 24 heures. Les classifications suivantes seront étiquetées immédiatement.

Table système des résultats

La classification des données crée une table système nommée system.data_classification.results pour stocker les résultats qui, par défaut, sont accessibles uniquement à l’administrateur du compte. L’administrateur de compte peut partager cette table. La table est accessible uniquement lorsque vous utilisez le calcul sans serveur. Pour plus d’informations sur ce tableau, consultez la référence de la table système de classification des données.

Important

La table de résultats system.data_classification.results contient tous les résultats de classification pour l'ensemble du métastore et inclut des valeurs d'exemple provenant des tables dans chaque catalogue. Vous devez uniquement partager cette table avec les utilisateurs qui sont privilégiés pour afficher les résultats de classification à l’échelle du metastore, y compris les exemples de valeurs.

Les autorisations suivantes sont requises pour afficher la table de résultats : USE CATALOG et USE SCHEMA, plus SELECT sur la table. Les utilisateurs disposant des droits MANAGE ou SELECT ayant accès à un catalogue peuvent voir les résultats dans la page, mais ne peuvent pas voir des exemples de valeurs.

Configurer des contrôles de gouvernance en fonction des résultats de classification des données

Masquer les données sensibles à l’aide d’une stratégie ABAC

Databricks recommande d’utiliser le contrôle d’accès basé sur les attributs Unity Catalog (ABAC) pour créer des contrôles de gouvernance basés sur les résultats de classification des données.

Pour créer une stratégie, cliquez sur Nouvelle stratégie. Le formulaire de politique est prérempli pour masquer les colonnes dont la classification est en cours de révision. Pour masquer les données, spécifiez n’importe quelle fonction de masquage inscrite dans le catalogue Unity, puis cliquez sur Enregistrer.

Vous pouvez également créer une stratégie qui couvre plusieurs balises de classification, en modifiant quand la colonne répond à la condition et en fournissant plusieurs balises.

Par exemple, pour créer une stratégie appelée « Confidentiel » qui masque tout nom, e-mail ou numéro de téléphone, définissez la condition de réponse sur hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").

Découverte et suppression du RGPD

Cet exemple de cahier montre comment utiliser la classification des données afin de faciliter l’identification et la suppression des données pour la conformité au RGPD.

Découverte et suppression RGPD à l’aide du notebook de classification des données

Obtenir un ordinateur portable

Comment gérer des balises incorrectes

Si les données sont incorrectement marquées, vous pouvez supprimer manuellement la balise. La balise ne sera pas réappliquée dans les analyses ultérieures.

Pour supprimer une balise à l’aide de l’interface utilisateur, accédez à la table dans l’Explorateur de catalogues et modifiez les balises de colonne.

Pour supprimer une balise à l’aide de SQL :

ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')

Erreurs de numérisation

Si des erreurs se produisent pendant l’analyse, un bouton Erreurs apparaît en haut à droite de la table de résultats.

Page Résultats avec le bouton Erreurs en haut à droite du tableau.

Cliquez sur le bouton pour afficher les tables qui ont échoué à l’analyse et aux messages d’erreur associés.

Erreurs d’analyse de la table de classification des données.

Par défaut, les échecs survenues pour des tables individuelles sont ignorés et réessayés le jour suivant.

Afficher les dépenses de classification des données

Pour comprendre comment la classification des données est facturée, consultez la page de tarification. Vous pouvez afficher les dépenses liées à la classification des données en exécutant une requête ou en affichant le tableau de bord d’utilisation.

Remarque

L’analyse initiale est plus coûteuse que les analyses suivantes sur le même catalogue, car ces analyses sont incrémentielles et entraînent généralement des coûts inférieurs.

Afficher l’utilisation à partir de la table système system.billing.usage

Vous pouvez interroger les dépenses de classification des données à partir de system.billing.usage. Les champs created_by et catalog_id peuvent être utilisés éventuellement pour décomposer les coûts :

  • created_by: Inclure pour voir les coûts par l’utilisateur qui a déclenché l’utilisation.
  • catalog_id: inclure pour afficher les coûts par catalogue. L’ID de catalogue est affiché dans le system.data_classification.results tableau.

Exemple de requête pour les 30 derniers jours :

SELECT
   usage_date,
   identity_metadata.created_by,
   usage_metadata.catalog_id,
   SUM(usage_quantity) AS dbus
FROM
   system.billing.usage
WHERE
   usage_date >= DATE_SUB(CURRENT_DATE(), 30)
  AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
   usage_date,
   created_by,
   catalog_id
ORDER BY
   usage_date DESC,
   created_by;

Afficher l’utilisation à partir du tableau de bord d’utilisation

Si vous disposez déjà d’un tableau de bord d’utilisation configuré dans votre espace de travail, vous pouvez l’utiliser pour filtrer l’utilisation en sélectionnant le projet d’origine de facturation intitulé « Classification des données ». Si vous n’avez pas configuré de tableau de bord d’utilisation, vous pouvez en importer un et appliquer le même filtrage. Pour plus d’informations, consultez Tableaux de bord Utilisation.

Balises de classification prises en charge

Les tableaux suivants répertorient les balises régies par le système prises en charge par la classification des données.

Balises disponibles pour les clients globaux

classe Descriptif
class.credit_card Numéro de carte de crédit
class.email_address Adresse de messagerie
class.iban_code Numéro de compte bancaire international (IBAN)
class.ip_address Adresse du protocole Internet (IPv4 ou IPv6)
class.location Emplacement
class.name Nom d’une personne
class.phone_number Numéro de téléphone
class.url URL
class.numéro_banque_us Numéro bancaire américain
class.us_driver_license Permis de conduire américain
class.us_itin Numéro d’identification des contribuables américains
class.us_passport Passeport américain
class.us_ssn Numéro de sécurité sociale des États-Unis
class.vin Numéro d’identification du véhicule (VIN)

Balises disponibles pour les clients européens

Ces balises sont disponibles dans les espaces de travail dans les régions d’Europe.

classe Descriptif
class.de_id_card Numéro de carte d’identification allemand (Personalausweisnummer)
class.de_svnr Numéro d’assurance sociale allemand (Sozialversicherungsnummer)
class.de_tax_id ID fiscal allemand (Steueridentifikationsnummer)
class.uk_nhs Numéro du Service national de santé (NHS) du Royaume-Uni
class.uk_nino UK Numéro d'assurance nationale (NINO)

Balises disponibles pour les clients australiens

Ces balises sont disponibles dans les espaces de travail dans les régions en Australie.

classe Descriptif
class.au_medicare Numéro de carte d’assurance-maladie australienne
class.au_tfn Numéro de fichier fiscal australien (TFN)

Limites

  • Les vues et les vues métriques ne sont pas prises en charge. Si la vue est basée sur des tables existantes, Databricks recommande de classifier les tables sous-jacentes pour voir s’ils contiennent des données sensibles.