Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article explique le concept des tables système dans Azure Databricks et met l’accent sur les ressources que vous pouvez utiliser pour tirer le meilleur parti des données de vos tables système.
Que sont les tables système ?
Les tables système sont un entrepôt analytique hébergé par Azure Databricks des données opérationnelles de votre compte qui se trouve dans le catalogue system. Les tables système peuvent être utilisées pour l’observabilité historique de votre compte.
Remarque
Les tables de schéma d’informations (system.information_schema) fonctionnent différemment des autres tables système. Consultez Schéma d’informations.
Spécifications
- Pour accéder aux tables système, votre espace de travail doit être activé pour le catalogue Unity. Pour plus d’informations, consultez Activer les tables système.
- Les tables système ne sont pas disponibles dans les régions suivantes :
- Régions Azure Chine
- Régions Azure Government
- Ouest de l’Inde
- Suisse Ouest
Quelles tables système sont disponibles ?
Actuellement, Azure Databricks héberge les tables système suivantes :
| Table de charge de travail | Descriptif | Prend en charge la diffusion en continu | Période de conservation gratuite | Inclut les données globales ou régionales |
|---|---|---|---|---|
| Journaux d’audit (préversion publique) | Inclut des enregistrements pour tous les événements d’audit provenant des espaces de travail de votre région. Pour obtenir la liste des événements d’audit disponibles, consultez Référence du journal de diagnostic. Chemin d’accès de la table : system.access.audit |
Oui | 365 jours | Régionales pour les événements au niveau de l’espace de travail. Globales pour les événements au niveau du compte. |
| Utilisation facturable | Inclut des enregistrements pour toutes les utilisations facturables sur votre compte. Chemin d’accès de la table : system.billing.usage |
Oui | 365 jours | Mondial |
| Événements de salle blanche (préversion publique) | Capture les événements liés aux salles blanches. Chemin d’accès de la table : system.access.clean_room_events |
Oui | 365 jours | Régional |
| clusters | Table de dimension à variation lente qui contient l’historique complet des configurations d’ordinateur au fil du temps pour tous les clusters. | Oui | 365 jours | Régional |
| Traçabilité des colonnes | Inclut un enregistrement pour chaque événement de lecture ou d’écriture sur une colonne de Unity Catalog (mais n’inclut pas d’événements qui n’ont pas de source). Chemin d’accès de la table : system.access.column_lineage |
Oui | 365 jours | Régional |
| Résultats de la classification des données (bêta) | Stocke les détections de classes de données sensibles au niveau des colonnes dans les catalogues activés de votre metastore. Chemin d’accès de la table : system.data_classification.results |
Non | 365 jours | Régional |
| Résultats de la surveillance de la qualité des données (bêta) | Stocke les résultats des contrôles de surveillance de la qualité des données (actualisation, complétivité) et des informations sur les incidents, notamment l’impact en aval et l’analyse de la cause racine, entre les tables activées dans votre metastore. Chemin d’accès de la table : system.data_quality_monitoring.table_results |
Non | Indéfinie | Régional |
| Événements d’assistant Databricks (préversion publique) | Effectue le suivi des messages utilisateur envoyés à l’Assistant Databricks. Chemin d’accès de la table : system.access.assistant_events |
Non | 365 jours | Régional |
| Événements de matérialisation des données de partage delta | Capture les événements de matérialisation des données créés à partir d'une vue, d'une vue matérialisée et de tables de flux partagées. Chemin d’accès de la table : system.sharing.materialization_history |
Oui | 365 jours | Régionales pour les événements au niveau de l’espace de travail. |
| Chronologie de l’exécution des travaux (version préliminaire publique) | Effectue le suivi des heures de début et de fin des exécutions de travaux. Chemin d’accès de la table : system.lakeflow.job_run_timeline |
Oui | 365 jours | Régional |
| Chronologie des tâches de travail (préversion publique) | Effectue le suivi des heures de début et de fin et des ressources de calcul utilisées pour les exécutions de tâches de travail. Chemin d’accès de la table : system.lakeflow.job_task_run_timeline |
Oui | 365 jours | Régional |
| Tâches de travail (préversion publique) | Effectue le suivi de toutes les tâches de travail qui s’exécutent dans le compte. Chemin d’accès de la table : system.lakeflow.job_tasks |
Oui | 365 jours | Régional |
| Travaux (préversion publique) | Effectue le suivi de tous les travaux créés dans le compte. Chemin d’accès de la table : system.lakeflow.jobs |
Oui | 365 jours | Régional |
| Événements d’entonnoir de la Place de marché (préversion publique) | Inclut les données d’impression du consommateur et de synthèse pour vos annonces. Chemin d’accès de la table : system.marketplace.listing_funnel_events |
Oui | 365 jours | Régional |
| Accès aux annonces de la place de marché (préversion publique) | Inclut les informations du consommateur pour les événements terminés request data ou get data sur vos référencements. Chemin d’accès de la table : system.marketplace.listing_access_events |
Oui | 365 jours | Régional |
| Métadonnées d’expérience de suivi MLflow (préversion publique) | Chaque ligne représente une expérience créée dans le système MLflow géré par Databricks. Chemin d’accès de la table : system.mlflow.experiments_latest |
Oui | 180 jours | Régional |
| Métadonnées d’exécution de suivi MLflow (préversion publique) | Chaque ligne représente une exécution créée dans le système MLflow géré par Databricks. Chemin d’accès de la table : system.mlflow.runs_latest |
Oui | 180 jours | Régional |
| Métriques d’exécution du suivi MLflow (préversion publique) | Contient les métriques timeseries journalisées dans MLflow associées à une formation, une évaluation ou un développement d’agent donnés. Chemin d’accès de la table : system.mlflow.run_metrics_history |
Oui | 180 jours | Régional |
| Données des points de terminaison de mise en service de modèles (préversion publique) | Table de dimension à variation lente qui stocke les métadonnées pour chaque modèle de base servi dans un point de terminaison de service de modèle. Chemin d’accès de la table : system.serving.served_entities |
Oui | 365 jours | Régional |
| Utilisation des points de terminaison de mise en service de modèles (préversion publique) | Capturent le nombre de jetons pour chaque requête vers un point de terminaison de mise en service de modèle et ses réponses. Pour capturer l’utilisation du point de terminaison dans cette table, vous devez activer le suivi de l’utilisation sur votre point de terminaison de service. Chemin d’accès de la table : system.serving.endpoint_usage |
Oui | 90 jours | Régional |
| Événements d'accès réseau (entrant) (aperçu public) | Une table qui enregistre un événement chaque fois qu'un accès entrant à un espace de travail est refusé par une politique d'entrée. Chemin d’accès de la table : system.access.inbound_network |
Oui | 30 jours | Régional |
| Événements de sortie d’accès réseau (Aperçu public) | Table qui enregistre un événement chaque fois que l’accès Internet sortant est refusé à partir de votre compte. Chemin d’accès de la table : system.access.outbound_network |
Oui | 365 jours | Régional |
| Chronologie des nœuds | Capture les métriques d’utilisation de vos ressources de calcul à usage unique et de travail. Chemin d’accès de la table : system.compute.node_timeline |
Oui | 90 jours | Régional |
| Types de nœuds | Capture les types de nœud actuellement disponibles avec leurs informations matérielles de base. Chemin d’accès de la table : system.compute.node_types |
Non | Indéfinie | Régional |
| Chronologie des mises à jour du pipeline (préversion publique) | Suit les heures de début et de fin et les ressources de calcul utilisées pour les mises à jour de pipeline. Chemin d’accès de la table : system.lakeflow.pipeline_update_timeline |
Oui | 365 jours | Régional |
| Pipelines (préversion publique) | Effectue le suivi de tous les pipelines créés dans le compte. Chemin d’accès de la table : system.lakeflow.pipelines |
Oui | 365 jours | Régional |
| Optimisation prédictives (préversion publique) | Suit l’historique des opérations de la fonction d’optimisation prédictive. Chemin d’accès de la table : system.storage.predictive_optimization_operations_history |
Non | 180 jours | Régional |
| Tarification | Journal historique de la tarification de la référence SKU. Un enregistrement est ajouté chaque fois que le prix d’une référence SKU change. Chemin d’accès de la table : system.billing.list_prices |
Non | Indéfinie | Mondial |
| Historique des requêtes (préversion publique) | Effectue la capture des enregistrements de toutes les requêtes exécutées sur des entrepôts SQL et du calcul informatique sans serveur pour les notebooks et les travaux. Chemin d’accès de la table : system.query.history |
Non | 365 jours | Régional |
| Événements SQL Warehouse (préversion publique) | Capture les événements liés aux entrepôts SQL. Par exemple, le démarrage, l’arrêt, l’exécution, le scale-up et le scale-down. Chemin d’accès de la table : system.compute.warehouse_events |
Oui | 365 jours | Régional |
| Entrepôts SQL (préversion publique) | Contient l’historique complet des configurations au fil du temps pour n’importe quel entrepôt SQL. Chemin d’accès de la table : system.compute.warehouses |
Oui | 365 jours | Régional |
| Traçabilité de table | Inclut un enregistrement pour chaque événement de lecture ou d'écriture sur une table ou un chemin d'accès dans Unity Catalog. Chemin d’accès de la table : system.access.table_lineage |
Oui | 365 jours | Régional |
| Espaces de travail (préversion publique) | La table workspaces_latest est une table de dimensions à variation lente des métadonnées pour tous les espaces de travail du compte. Chemin d’accès de la table : system.access.workspaces_latest |
Non | Indéfinie | Mondial |
| Ingestion zerobus (flux) (bêta) | Une table qui stocke toutes les données liées aux événements de streaming générés par l’utilisation de l’ingestion Zerobus. Chemin d’accès de la table : system.lakeflow.zerobus_stream |
Oui | 365 jours | Régional |
| Zerobus Ingest (Ingestion) (bêta) | Une table qui stocke toutes les données liées aux enregistrements ingérés à l’aide de Zerobus Ingest. Chemin d’accès de la table : system.lakeflow.zerobus_ingest |
Oui | 365 jours | Régional |
Les tables d’utilisation facturable et de tarification sont gratuites. Les tables de l'aperçu public sont également gratuites pendant l'aperçu, mais pourraient entraîner des frais à l'avenir.
Remarque
Vous pouvez voir d’autres tables système dans votre compte, en plus des tables répertoriées ci-dessus. Ces tables sont actuellement en préversion privée et sont vides par défaut. Si vous souhaitez utiliser l’une de ces tables, contactez l’équipe de votre compte Databricks.
Relations entre les tables système
Le diagramme de relation d’entité suivant décrit la relation entre les tables système actuellement disponibles. Ce diagramme met en évidence les clés primaires et étrangères de chaque table.
Activer les tables système
Étant donné que les tables système sont régies par le catalogue Unity, vous devez disposer d’au moins un espace de travail avec catalogue Unity dans votre compte pour activer les tables système de votre compte. Les tables système incluent des données de tous les espaces de travail de votre compte, mais elles ne sont accessibles qu’à partir d’un espace de travail compatible avec le catalogue Unity.
Le metastore doit se trouver sur Unity Catalog Privilege Model Version 1.0 pour accéder aux tables système. Consultez Mise à niveau vers l’héritage des privilèges.
Octroyer un accès aux tables système
L’accès aux tables système est régi par Unity Catalog. Aucun utilisateur n’a accès aux tables système par défaut. Pour permettre à un utilisateur d’interroger des tables système, un administrateur de metastore qui est également administrateur de compte doit accorder à cet utilisateur USE et SELECT aux autorisations sur les schémas système. Consultez Gérer les privilèges dans Unity Catalog.
Les tables système sont en lecture seule et ne peuvent pas être modifiées.
Remarque
Si votre compte a été créé après le 9 novembre 2023, vous n’avez peut-être pas le rôle d’administrateur de metastore par défaut. Pour plus d’informations, consultez Prise en main du catalogue Unity.
Les tables système contiennent-elles des données de tous les espaces de travail de votre compte ?
Les tables système contiennent des données opérationnelles pour tous les espaces de travail de votre compte déployés dans la même région cloud. Certaines tables incluent des données globales. Pour plus d’informations, consultez la liste des tables disponibles.
Bien que les tables système ne soient accessibles qu’à l’aide d’un espace de travail de catalogue Unity, elles incluent des données opérationnelles provenant d’espaces de travail de catalogue non Unity dans votre compte.
Où sont stockées les données de tables système ?
Les données de la table système de votre compte sont stockées dans un compte de stockage hébergé par Azure Databricks situé dans la même région que votre metastore. Les données sont partagées avec vous en toute sécurité à l’aide de Delta Sharing.
Chaque table a une période de rétention de données gratuite. Pour plus d’informations, consultez la colonne Période de rétention gratuite dans quelles tables système sont disponibles ?.
Où se trouvent les tables système dans l’explorateur de catalogues ?
Les tables système de votre compte se trouvent dans un catalogue appelé system, qui est inclus dans chaque metastore Unity Catalog. Dans le system catalogue, vous verrez des schémas tels que access et billing qui contiennent les tables système.
Considérations relatives à la diffusion en continu de tables système
Azure Databricks utilise Delta Sharing pour partager des données de table système avec des clients. Tenez compte des considérations suivantes lors de la diffusion en continu avec Delta Sharing :
- Si vous utilisez la diffusion en continu avec des tables système, définissez l’option
skipChangeCommitssurtrue. Cela garantit que le travail de diffusion en continu n'est pas interrompu par les suppressions dans les tables système. Consultez Ignorer les mises à jour et les suppressions. -
Trigger.AvailableNown’est pas pris en charge avec la diffusion en continu Delta Sharing. Il sera converti enTrigger.Once.
Si vous utilisez un déclencheur dans votre tâche de streaming et que vous constatez qu’il ne rattrape pas la dernière version de la table système, Databricks recommande d’augmenter la fréquence d'exécution planifiée de la tâche.
Lire les modifications incrémentielles des tables système de diffusion en continu
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Problèmes connus
- De nouvelles colonnes peuvent être ajoutées à des tables système existantes à tout moment. Les requêtes qui s’appuient sur un schéma fixe peuvent s’interrompre si de nouvelles colonnes sont introduites. Les colonnes existantes ne changent pas ou ne seront pas supprimées. Si vous écrivez des données de table système dans une autre table cible, envisagez d’activer l’évolution du schéma.
- Aucune prise en charge de la surveillance en temps réel. Les données sont mises à jour tout au long de la journée. Si vous ne voyez pas d'enregistrement pour un événement récent, revenez plus tard.
- Le schéma de table système prend en charge la
__internal_loggingjournalisation des charges utiles à l’aide de tables d’inférence compatibles avec AI Gateway pour les modèles externes et les charges de travail à débit provisionné. Ce schéma est visible pour les administrateurs de compte, mais il ne peut pas être activé et ne doit pas être utilisé pour les flux de travail clients.
- Pour activer les tables système, vous devrez peut-être accorder l'accès réseau au point de terminaison de stockage Blob des tables système. Pour afficher la liste du point de terminaison de stockage des tables système de chaque région, consultez les adresses IP du point de terminaison de stockage.
- Les schémas système
system.operational_dataetsystem.lineagesont déconseillés et contiendront des tables vides.