Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette fonctionnalité est disponible en préversion publique.
Cette page explique comment utiliser databricks Data Classification in Unity Catalog pour classifier et baliser automatiquement les données sensibles dans votre catalogue.
Les catalogues de données peuvent avoir une grande quantité de données, contenant souvent des données sensibles connues et inconnues. Il est essentiel que les équipes de données comprennent le type de données sensibles qui existe dans chaque table afin qu’elles puissent régir et démocratiser l’accès à ces données.
Pour résoudre ce problème, Databricks Data Classification utilise un agent IA pour classifier et étiqueter automatiquement les tables dans votre catalogue. Cela vous permet de découvrir des données sensibles et d’appliquer des contrôles de gouvernance sur les résultats, à l’aide d’outils tels que le contrôle d’accès basé sur les attributs du catalogue Unity (ABAC). Pour obtenir la liste des balises prises en charge, consultez balises de classification prises en charge.
À l’aide de cette fonctionnalité, vous pouvez :
- Classifier les données : le moteur utilise un système IA agentique pour classifier et étiqueter automatiquement toutes les tables dans le catalogue Unity.
- Optimisez les coûts grâce à l’analyse intelligente : le système détermine intelligemment quand analyser vos données en tirant parti du catalogue Unity et du moteur d’intelligence des données. Cela signifie que l’analyse est incrémentielle et optimisée pour garantir que toutes les nouvelles données sont classées sans configuration manuelle.
- Passez en revue et protégez les données sensibles : l’affichage des résultats vous aide à afficher les résultats de classification et à protéger les données sensibles en étiquetant et en créant des stratégies de contrôle d’accès pour chaque classe.
Important
Databricks Data Classification utilise le stockage par défaut pour stocker les résultats de classification. Vous n’êtes pas facturé pour le stockage.
Databricks Data Classification utilise un modèle de langage volumineux (LLM) pour faciliter la classification.
Spécifications
Remarque
La classification des données est une fonctionnalité en préversion au niveau de l’espace de travail, et elle ne peut être gérée que par un administrateur d’espace de travail ou de compte. Pour obtenir des instructions, consultez Gérer les préversions d’Azure Databricks.
Important
Le modèle qui alimente cette fonction est mis à disposition à l’aide des API Foundation Model Serving de Mosaic AI. Llama 3.1 est titulaire d’une licence de la communauté Llama 3.1, Copyright © Meta Platforms, Inc. Tous les droits réservés. Pour plus d’informations, consultez les licences et conditions des développeurs de modèles applicables.
Si les modèles émergent à l’avenir qui fonctionnent mieux en fonction des benchmarks internes de Databricks, Databricks peut modifier les modèles et mettre à jour la documentation.
- Vous devez activer le calcul serverless. Voir Se connecter à un calcul sans serveur.
- Pour activer la classification des données, vous devez posséder le catalogue ou avoir
USE_CATALOGetMANAGEdes privilèges dessus. - Pour afficher le tableau des résultats, vous devez disposer des autorisations suivantes :
USE CATALOGetUSE SCHEMA, plusSELECTsur la table. Consultez la table système des résultats.
Utiliser la classification des données
Pour utiliser la classification des données sur un catalogue :
Accédez au catalogue, puis cliquez sur l’onglet Détails .
Cliquez sur le bouton bascule Classification des données pour l’activer.
La boîte de dialogue Activer la classification des données s’affiche. Par défaut, tous les schémas sont inclus. Pour inclure uniquement certains schémas, sélectionnez-les dans le menu déroulant Schémas.
Cliquez sur Activer.
Cela crée un travail en arrière-plan qui analyse de façon incrémentielle toutes les tables du catalogue ou des schémas sélectionnés.
Le moteur de classification s’appuie sur l’analyse intelligente pour déterminer quand analyser une table. Les nouvelles tables et colonnes d’un catalogue sont généralement analysées dans les 24 heures suivant la création.
Afficher les résultats de la classification
Pour afficher les résultats de classification, cliquez sur Afficher les résultats en regard du bouton bascule.
Une page de résultats s’ouvre, affichant les résultats de classification pour toutes les tables du catalogue. Pour sélectionner un autre catalogue, utilisez le sélecteur en haut à gauche de la page. Un entrepôt SQL sans serveur est requis et se trouve en haut à droite de la page.
La page de résultats répertorie les étiquettes de classification identifiées dans le catalogue. Toutes les stratégies ABAC existantes qui référencent les balises système de classification des données (class.xx) apparaissent dans le tableau.
Pour passer en revue les résultats d’une balise de classification spécifique, cliquez sur Vérifier dans la colonne la plus à droite de la ligne correspondante.
Un panneau s’affiche, affichant les tables pour lesquelles la classification des données a détecté la balise de classification avec une confiance élevée. Passez en revue les tables, les colonnes et les exemples de valeurs. Les exemples de valeurs s’affichent uniquement si vous avez accès à la table de résultats. Consultez la table système des résultats.
Si les colonnes identifiées correspondent à vos attentes, vous pouvez activer l’étiquetage automatique de la balise de classification pour ce catalogue. Lorsque l’étiquetage automatique est activé, toutes les détections existantes et futures de cette classification sont marquées.
Pour activer l’étiquetage automatique, activez étiquetage automatique avec .... Vous pouvez désactiver ultérieurement l’étiquetage automatique en utilisant le même bouton. Lorsque vous désactivez l’étiquetage, aucune étiquette future n’est appliquée, mais les balises existantes ne sont pas supprimées.
Remarque
Lorsque vous activez l’étiquetage automatique, les balises ne sont pas immédiatement remplies. Ils seront renseignés lors de l'analyse suivante, qui devrait prendre effet dans les 24 heures. Les classifications suivantes seront étiquetées immédiatement.
Table système des résultats
La classification des données crée une table système nommée system.data_classification.results pour stocker les résultats qui, par défaut, sont accessibles uniquement à l’administrateur du compte. L’administrateur de compte peut partager cette table. La table est accessible uniquement lorsque vous utilisez le calcul sans serveur. Pour plus d’informations sur ce tableau, consultez la référence de la table système de classification des données.
Important
La table de résultats system.data_classification.results contient tous les résultats de classification pour l'ensemble du métastore et inclut des valeurs d'exemple provenant des tables dans chaque catalogue. Vous devez uniquement partager cette table avec les utilisateurs qui sont privilégiés pour afficher les résultats de classification à l’échelle du metastore, y compris les exemples de valeurs.
Les autorisations suivantes sont requises pour afficher la table de résultats : USE CATALOG et USE SCHEMA, plus SELECT sur la table. Les utilisateurs disposant des droits MANAGE ou SELECT ayant accès à un catalogue peuvent voir les résultats dans la page, mais ne peuvent pas voir des exemples de valeurs.
Configurer des contrôles de gouvernance en fonction des résultats de classification des données
Masquer les données sensibles à l’aide d’une stratégie ABAC
Databricks recommande d’utiliser le contrôle d’accès basé sur les attributs Unity Catalog (ABAC) pour créer des contrôles de gouvernance basés sur les résultats de classification des données.
Pour créer une stratégie, cliquez sur Nouvelle stratégie. Le formulaire de politique est prérempli pour masquer les colonnes dont la classification est en cours de révision. Pour masquer les données, spécifiez n’importe quelle fonction de masquage inscrite dans le catalogue Unity, puis cliquez sur Enregistrer.
Vous pouvez également créer une stratégie qui couvre plusieurs balises de classification, en modifiant quand la colonne répond à la condition et en fournissant plusieurs balises.
Par exemple, pour créer une stratégie appelée « Confidentiel » qui masque tout nom, e-mail ou numéro de téléphone, définissez la condition de réponse sur hasTag("class.name") OR hasTag("class.email_address") OR hasTag("class.phone_number").
Découverte et suppression du RGPD
Cet exemple de cahier montre comment utiliser la classification des données afin de faciliter l’identification et la suppression des données pour la conformité au RGPD.
Découverte et suppression RGPD à l’aide du notebook de classification des données
Obtenir un ordinateur portable
Comment gérer des balises incorrectes
Si les données sont incorrectement marquées, vous pouvez supprimer manuellement la balise. La balise ne sera pas réappliquée dans les analyses ultérieures.
Pour supprimer une balise à l’aide de l’interface utilisateur, accédez à la table dans l’Explorateur de catalogues et modifiez les balises de colonne.
Pour supprimer une balise à l’aide de SQL :
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
Erreurs de numérisation
Si des erreurs se produisent pendant l’analyse, un bouton Erreurs apparaît en haut à droite de la table de résultats.
Cliquez sur le bouton pour afficher les tables qui ont échoué à l’analyse et aux messages d’erreur associés.
Par défaut, les échecs survenues pour des tables individuelles sont ignorés et réessayés le jour suivant.
Afficher les dépenses de classification des données
Pour comprendre comment la classification des données est facturée, consultez la page de tarification. Vous pouvez afficher les dépenses liées à la classification des données en exécutant une requête ou en affichant le tableau de bord d’utilisation.
Remarque
L’analyse initiale est plus coûteuse que les analyses suivantes sur le même catalogue, car ces analyses sont incrémentielles et entraînent généralement des coûts inférieurs.
Afficher l’utilisation à partir de la table système system.billing.usage
Vous pouvez interroger les dépenses de classification des données à partir de system.billing.usage. Les champs created_by et catalog_id peuvent être utilisés éventuellement pour décomposer les coûts :
-
created_by: Inclure pour voir les coûts par l’utilisateur qui a déclenché l’utilisation. -
catalog_id: inclure pour afficher les coûts par catalogue. L’ID de catalogue est affiché dans lesystem.data_classification.resultstableau.
Exemple de requête pour les 30 derniers jours :
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
Afficher l’utilisation à partir du tableau de bord d’utilisation
Si vous disposez déjà d’un tableau de bord d’utilisation configuré dans votre espace de travail, vous pouvez l’utiliser pour filtrer l’utilisation en sélectionnant le projet d’origine de facturation intitulé « Classification des données ». Si vous n’avez pas configuré de tableau de bord d’utilisation, vous pouvez en importer un et appliquer le même filtrage. Pour plus d’informations, consultez Tableaux de bord Utilisation.
Balises de classification prises en charge
Les tableaux suivants répertorient les balises régies par le système prises en charge par la classification des données.
Balises disponibles pour les clients globaux
| classe | Descriptif |
|---|---|
| class.credit_card | Numéro de carte de crédit |
| class.email_address | Adresse de messagerie |
| class.iban_code | Numéro de compte bancaire international (IBAN) |
| class.ip_address | Adresse du protocole Internet (IPv4 ou IPv6) |
| class.location | Emplacement |
| class.name | Nom d’une personne |
| class.phone_number | Numéro de téléphone |
| class.url | URL |
| class.numéro_banque_us | Numéro bancaire américain |
| class.us_driver_license | Permis de conduire américain |
| class.us_itin | Numéro d’identification des contribuables américains |
| class.us_passport | Passeport américain |
| class.us_ssn | Numéro de sécurité sociale des États-Unis |
| class.vin | Numéro d’identification du véhicule (VIN) |
Balises disponibles pour les clients européens
Ces balises sont disponibles dans les espaces de travail dans les régions d’Europe.
| classe | Descriptif |
|---|---|
| class.de_id_card | Numéro de carte d’identification allemand (Personalausweisnummer) |
| class.de_svnr | Numéro d’assurance sociale allemand (Sozialversicherungsnummer) |
| class.de_tax_id | ID fiscal allemand (Steueridentifikationsnummer) |
| class.uk_nhs | Numéro du Service national de santé (NHS) du Royaume-Uni |
| class.uk_nino | UK Numéro d'assurance nationale (NINO) |
Balises disponibles pour les clients australiens
Ces balises sont disponibles dans les espaces de travail dans les régions en Australie.
| classe | Descriptif |
|---|---|
| class.au_medicare | Numéro de carte d’assurance-maladie australienne |
| class.au_tfn | Numéro de fichier fiscal australien (TFN) |
Limites
- Les vues et les vues métriques ne sont pas prises en charge. Si la vue est basée sur des tables existantes, Databricks recommande de classifier les tables sous-jacentes pour voir s’ils contiennent des données sensibles.