Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article décrit le profilage des données. Il fournit une vue d’ensemble des composants et de l’utilisation du profilage des données.
Le profilage des données fournit des statistiques récapitulatives pour une table et calcule les métriques de profilage au fil du temps pour afficher facilement les tendances historiques. Il est utile pour une surveillance approfondie de toutes les métriques clés pour certaines tables. Vous pouvez également l'utiliser pour suivre les performances des modèles de Machine Learning et des points de terminaison de déploiement de modèle en profilant les tables d'inférence qui contiennent des entrées de modèle et des prédictions. Le diagramme montre le flux de données via des pipelines de données et ML dans Databricks, ainsi que la façon dont vous pouvez utiliser le profilage pour suivre en continu la qualité des données et les performances du modèle.
Pourquoi utiliser le profilage des données ?
Les métriques quantitatives vous aident à suivre et à confirmer la qualité et la cohérence de vos données au fil du temps. Lorsque vous détectez les modifications apportées à la distribution de données de votre table ou aux performances du modèle correspondant, les tables créées par le profilage des données peuvent capturer et vous avertir de la modification et vous aider à identifier la cause.
Le profilage des données vous aide à répondre aux questions suivantes :
- À quoi ressemble l’intégrité des données et comment change-t-elle au fil du temps ? Par exemple, quelle est le pourcentage de valeurs nulles ou zéro dans les données actuelles et a-t-il augmenté ?
- À quoi ressemble la distribution statistique des données et comment change-t-elle au fil du temps ? Par exemple, quel est le 90e centile d’une colonne numérique ? Ou, quelle est la distribution des valeurs dans une colonne catégorielle et en quoi diffère-t-elle d’hier ?
- Existe-t-il une dérive entre les données actuelles et une base de référence connue, ou entre les fenêtres de temps successives des données ?
- À quoi ressemble la distribution statistique ou la dérive d’un sous-ensemble ou d’une tranche de données ?
- Comment les entrées et les prédictions de modèle ML évoluent-elles au fil du temps ?
- Comment les performances du modèle évoluent-elles au fil du temps ? La version A du modèle est-elle plus performante que la version B ?
En outre, le profilage des données vous permet de contrôler la granularité temporelle des observations et de configurer des métriques personnalisées.
Spécifications
- Votre espace de travail doit être activé pour Unity Catalog et vous devez avoir accès à Databricks SQL.
- Pour activer le profilage des données, vous devez disposer des privilèges suivants :
-
USE CATALOGsur le catalogue etUSE SCHEMAsur le schéma contenant la table. -
SELECTsur la table. -
MANAGEsur le catalogue, le schéma ou la table.
-
Note
Le profilage des données utilise le calcul sans serveur pour les tâches, mais ne nécessite pas que votre compte soit activé pour le calcul sans serveur. Pour plus d’informations sur le suivi des dépenses, consultez Afficher les dépenses de surveillance de la qualité des données.
Fonctionnement du profilage des données
Pour profiler une table, vous créez un profil attaché à la table. Pour profiler les performances d’un modèle Machine Learning, vous attachez le profil à une table d’inférence qui contient les entrées du modèle et les prédictions correspondantes.
Le profilage des données fournit les types d’analyse suivants : série chronologique, inférence et instantané.
| Type de profil | Descriptif |
|---|---|
| Série chronologique | À utiliser pour les tables contenant un jeu de données de série chronologique basé sur une colonne timestamp. Le profilage calcule les métriques de qualité des données dans les fenêtres temporelles de la série chronologique. |
| Inférence | À utiliser pour les tables contenant le journal des requêtes d’un modèle. Chaque ligne est une requête, avec des colonnes pour le timestamp, les entrées du modèle, la prédiction correspondante et, en option, l’étiquette de référence. Le profilage compare les métriques de performances du modèle et de qualité des données dans les fenêtres temporelles du journal des demandes. |
| Instantané | À utiliser pour tous les autres types de tables. Le profilage calcule les métriques de qualité des données sur toutes les données de la table. La table complète est traitée à chaque actualisation. |
Cette section décrit brièvement les tables d’entrée utilisées par le profilage des données et les tables de métriques qu’elle produit. Le diagramme montre la relation entre les tables d’entrée, les tables de métriques, le profil et le tableau de bord.
Table primaire et table de base
Outre la table à profiler, appelée « table primaire », vous pouvez éventuellement spécifier une table de référence à utiliser comme référence pour mesurer la dérive ou la modification des valeurs au fil du temps. Une table de base est utile lorsque vous disposez d’un exemple de ce à quoi vos données doivent ressembler. L’idée est que la dérive est ensuite calculée par rapport aux valeurs et distributions de données attendues.
La table de base doit contenir un jeu de données qui reflète la qualité attendue des données d’entrée, en termes de distributions statistiques, de distributions de colonnes individuelles, de valeurs manquantes et d’autres caractéristiques. Il doit correspondre au schéma de la table profilée. L’exception est la colonne timestamp pour les tables utilisées avec des profils de série chronologique ou d’inférence. Si des colonnes sont manquantes dans la table primaire ou dans la table de référence, le profilage utilise des heuristiques optimales pour calculer les métriques de sortie.
Pour les profils qui utilisent un profil d’instantané, la table de référence doit contenir un instantané des données dont la distribution satisfait à une norme de qualité acceptable. Par exemple, sur des données de distribution de notes, vous pouvez définir la base de référence sur une classe précédente où les notes étaient distribuées uniformément.
Pour les profils qui utilisent un profil de série chronologique, la table de référence doit contenir des données qui représentent des fenêtres de temps où les distributions de données représentent une norme de qualité acceptable. Par exemple, sur les données météorologiques, vous pouvez définir la base de référence sur une semaine, un mois ou une année où la température était proche des températures normales attendues.
Pour les profils qui utilisent un profil d’inférence, un bon choix pour une ligne de base est les données utilisées pour entraîner ou valider le modèle en cours de profilage. De cette façon, les utilisateurs peuvent être alertés quand les données ont dérivé par rapport à ce sur quoi le modèle a été entraîné et validé. Cette table doit contenir les mêmes colonnes de caractéristiques que la table primaire, et doit également avoir la même model_id_col valeur que celle spécifiée pour l’inferenceLog de la table primaire afin que les données soient agrégées de manière cohérente. Dans l’idéal, le jeu de test ou de validation utilisé pour évaluer le modèle doit être utilisé pour garantir des métriques de qualité de modèle comparables.
Tables de métriques et tableau de bord
Le profilage crée deux tables de métriques et un tableau de bord. Les valeurs de métrique sont calculées pour l’ensemble de la table, et pour les sous-ensembles de données et fenêtres de temps (ou « tranches ») que vous spécifiez lorsque vous créez le profil. En outre, pour l’analyse de l’inférence, les métriques sont calculées pour chaque ID de modèle. Pour plus d’informations sur les tables de métriques, consultez tables de métriques de profilage des données.
- La table de métriques de profil contient des statistiques récapitulatives. Consultez le schéma de table de métriques de profil.
- La table des métriques de dérive contient des statistiques relatives à la dérive des données au fil du temps. Si une table de référence est fournie, la dérive est également profilée par rapport aux valeurs de base. Consultez le schéma de table de métriques de dérive.
Les tables de métriques sont des tables Delta stockées dans un schéma Unity Catalog que vous spécifiez. Vous pouvez afficher ces tables à l’aide de l’interface utilisateur Databricks, les interroger à l’aide de Databricks SQL et créer des tableaux de bord et des alertes en fonction de celles-ci.
Pour chaque profil, Databricks crée automatiquement un tableau de bord pour vous aider à visualiser et à présenter les résultats du profil. Le tableau de bord est entièrement personnalisable. Consultez Tableaux de bord.
Limites
- Seules les tables Delta sont prises en charge pour le profilage et la table doit être l’un des types de tableau suivants : tables managées, tables externes, vues, vues matérialisées ou tables de diffusion en continu.
- Les profils créés sur des vues matérialisées ne prennent pas en charge le traitement incrémentiel.
- Toutes les régions ne sont pas prises en charge. Pour obtenir une prise en charge régionale, consultez la colonne Profilage des données dans la table Disponibilité des fonctionnalités d'IA et d'apprentissage automatique.
- Les profils créés à l’aide des modes d’analyse de série chronologique ou d’inférence calculent uniquement les métriques au cours des 30 derniers jours. Si vous avez besoin d’ajuster cela, contactez votre équipe de compte Databricks.
Commencer à utiliser le profilage des données
Pour démarrer, consultez les articles suivants :
- Créez un profil à l’aide de l’interface utilisateur Databricks.
- Créez un profil de données à l’aide de l’API.
- Tables de métriques de profilage des données.
- Tableau de bord de profilage des données.
- Alertes de profil.
- Utilisez des métriques personnalisées avec le profilage des données.
- Tables d’inférence pour la surveillance et le débogage des modèles.
- Surveiller l’impartialité et le biais des modèles de classification.
- Consultez le document de référence de l’API de profilage des données.
- Exemples de notebooks.