默认情况下,数据质量监视扫描结果存储在 system.data_quality_monitoring.table_results 表中。 只有帐户管理员才能访问此表,并且必须根据需要向其他人授予访问权限。 数据质量监视使用 默认存储 来存储异常情况检测结果。 不会为存储付费。
重要
结果表 system.data_quality_monitoring.table_results 包含整个元存储中的所有结果,并包括每个目录中表的示例值。 授予对此表的访问权限时,请小心谨慎。
异常情况检测结果表架构
结果表中的每一行对应于扫描的架构中的单个表。
该表具有以下架构:
| 列名称 | 内容(对于 struct 数据类型) |
数据类型 | Description | 示例数据 |
|---|---|---|---|---|
event_time |
时间戳 | 生成行的时间。 | 2025-06-27T12:00:00 |
|
catalog_name |
字符串 | 目录的名称。 用于标识表。 | main |
|
schema_name |
字符串 | 架构的名称。 用于标识表。 | default |
|
table_name |
字符串 | 表格名称 用于标识表。 | events |
|
catalog_id |
字符串 | 目录的稳定 ID。 | 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe |
|
schema_id |
字符串 | 架构的稳定 ID。 | 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe |
|
table_id |
字符串 | 表的稳定 ID。 | 3f1a7d6e-9c59-4b76-8c32-8d4c74e289fe |
|
status |
字符串 | 表级别的合并运行状况。
Unhealthy 如果任何检查或组不正常。 |
Healthy、Unhealthy、Unknown |
|
freshness |
结构 | 新鲜度检查。 | ||
status |
字符串 | 总体新鲜度状态。 | Unhealthy |
|
commit_freshness |
结构 | 提交新鲜度检查结果。 | ||
completeness |
结构 | 完整性检查结果。 | ||
status |
字符串 | 完整性检查的状态。 | Unhealthy |
|
total_row_count |
结构 | 表中随时间推移的总行数。 | ||
daily_row_count |
结构 | 每天添加的行数。 | ||
downstream_impact |
结构 | 基于依赖项图的下游影响摘要。 | ||
impact_level |
int | 严重性指示器(0 = 无、1 = 低、2 = 中、3 = 高、4 = 非常高)。 |
2 |
|
num_downstream_tables |
int | 受影响的下游表数。 | 5 |
|
num_queries_on_affected_tables |
int | 过去 30 天内,受影响的下游表上运行的查询数。 | 120 |
|
root_cause_analysis |
结构 | 有关导致问题的上游作业的信息。 | ||
upstream_jobs |
array | 每个上游作业的元数据。 |
commit_freshness 数组结构
结构 commit_freshness 包含以下内容:
| 物料名称 | 数据类型 | Description | 示例数据 |
|---|---|---|---|
status |
字符串 | 提交新鲜度检查的状态。 | Unhealthy |
error_code |
字符串 | 检查期间遇到的错误消息。 | FAILED_TO_FIT_MODEL |
last_value |
时间戳 | 上次提交时间戳。 | 2025-06-27T11:30:00 |
predicted_value |
时间戳 | 表应更新的预测时间。 | 2025-06-27T11:45:00 |
total_row_count 和 daily_row_count 数组结构
total_row_count和daily_row_count结构体包含以下内容:
| 物料名称 | 数据类型 | Description | 示例数据 |
|---|---|---|---|
status |
字符串 | 检查的状态。 | Unhealthy |
error_code |
字符串 | 检查期间遇到的错误消息。 | FAILED_TO_FIT_MODEL |
last_value |
int | 过去 24 小时内观察到的行数。 | 500 |
min_predicted_value |
int | 过去 24 小时内的最小预期行数。 | 10 |
max_predicted_value |
int | 过去 24 小时内的最大预期行数。 | 1000 |
upstream_jobs 数组结构
下表显示了列中显示的 upstream_jobs 数组的结构:
| 物料名称 | 数据类型 | Description | 示例数据 |
|---|---|---|---|
job_id |
字符串 | 作业 ID。 | 12345 |
workspace_id |
字符串 | 工作区 ID。 | 6051921418418893 |
job_name |
字符串 | 作业显示名称。 | daily_refresh |
last_run_status |
字符串 | 最近运行的状态。 | SUCCESS |
run_page_url |
字符串 | Databricks 作业运行页的 URL。 | https://<workspace_url>/runs/123 |
下游影响信息
在记录的结果表中,该列 downstream_impact 具有以下 struct 字段:
| 领域 | 类型 | Description |
|---|---|---|
impact_level |
int | 介于 1 和 4 之间的整数值,指示数据质量问题的严重性。 较高的值表示更大的中断。 |
num_downstream_tables |
int | 可能受已确定问题影响的下游表的数量。 |
num_queries_on_affected_tables |
int | 在过去 30 天内引用受影响表和下游表的查询总数。 |