本文演示如何使用 Databricks UI 创建数据配置文件。 还可以使用 API。
若要访问 Databricks UI,请执行以下作:
在工作区左侧栏中,单击
打开 目录资源管理器。
导航到要分析的表。
单击“ 质量 ”选项卡。
如果未为此架构启用 异常情况检测 ,请单击“ 启用”。
如果为此架构启用了异常情况检测,请单击“ 配置”。
在 “数据质量监视 ”对话框中的 “数据分析 ”字段中,单击“ 配置”。
在对话框中,选择 配置文件类型。 以下部分介绍每种类型的配置文件类型选项和附加选择。
分析
从 “配置文件类型 ”下拉菜单中,选择要创建的配置文件的类型。 表显示了配置文件类型。
| 配置文件类型 | Description |
|---|---|
| 时间序列概要 | 包含一段时间内测量的值的表。 此表包含时间戳列。 |
| 快照配置文件 | 任何 Delta 托管表、外部表、视图、具体化视图或流式处理表。 |
| 推断配置文件 | 包含机器学习分类或回归模型输出的预测值的表。 此表包括时间戳、模型 ID、模型输入(特征)、包含模型预测的列,以及包含唯一观察 ID 和地面真实标签的可选列。 它还可以包含元数据(如人口统计信息),这些元数据不用作模型的输入,但对于公平性和偏见调查或其他任务可能很有用。 |
如果选择 TimeSeries 或 Inference,则需要其他参数,并在以下部分中进行介绍。
注释
- 首次创建时序或推理配置文件时,配置文件仅分析创建前的30天数据。 创建配置文件后,将处理所有新数据。
- 在具体化视图上定义的监视器不支持增量处理。
小窍门
对于 TimeSeries 和 Inference 配置文件,最佳做法是在表上启用更改数据馈送(CDF)。 启用 CDF 后,只会处理新追加的数据,而不是每次刷新时重新处理整个表。 这提升了执行效率,并在多个表中扩展分析时降低了成本。
TimeSeries 轮廓
对于TimeSeries配置文件,您必须选择以下选项:
- 指定 指标粒度 ,确定如何在时段内对数据进行分区。
- 指定 Timestamp 列,即包含时间戳的表中的列。 时间戳列数据类型必须是
TIMESTAMP或可以使用to_timestamp转换为时间戳的类型。
Inference 轮廓
对于Inference配置文件,除了粒度和时间戳外,还必须进行以下选择:
- 选择 问题类型,分类或回归。
- 指定 预测列,该列包含模型的预测值。
- (可选)指定 Label 列,该列包含模型预测的基础真相。
- 指定 模型 ID 列,该列包含用于预测的模型的 ID。
高级选项
在 “高级选项 ”部分中,可以设置计划、添加电子邮件通知、添加自定义指标和切片表达式,以及更改默认配置文件配置。
时间表
若要设置配置文件以按计划运行,请选择 “按计划刷新 ”,然后选择配置文件要运行的频率和时间。 如果不希望配置文件自动运行,请选择 “手动刷新”。 如果手动选择 “刷新”,则可以稍后从“ 质量 ”选项卡中刷新指标。
Notifications
若要为某个配置文件设置电子邮件通知,请输入将接收通知的电子邮件地址,然后选择要启用的通知选项。 每个通知事件类型最多支持 5 封电子邮件。
Metrics
在 “指标 ”部分中,可以选择更改以下默认设置:
指标表架构名称:存储配置文件创建的指标表的 Unity 目录架构。 此位置的格式必须为 {catalog}。{schema}。 默认情况下,此值被设置为与已分析的表相同的模式位置。 可以指定其他位置。
资产目录:用于存储数据分析资产的现有目录的绝对路径。 默认情况下,资产存储在默认目录中:“/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}”。 如果在此字段中输入其他位置,将在指定的目录中的“/{table_name}”下创建资产。 此目录可以位于工作区中的任意位置。 对于要在组织内共享的配置文件,可以使用“/Shared/”目录中的路径。
此字段不能留空。
还可以指定以下设置:
- Unity 目录基线表名称:包含比较基线数据的表或视图的名称。
-
指标切片表达式:切片表达式允许除整个表外定义要分析的表子集。 若要创建切片表达式,请单击“ 添加表达式 ”并输入表达式定义。 例如,表达式
"col_2 > 10"生成两个切片:一个用于col_2 > 10和一个用于col_2 <= 10。 作为另一个示例,表达式"col_1"将为每个唯一值col_1生成一个切片。 数据按每个表达式独立分组,从而为每个谓词及其补码生成单独的切片。 -
自定义指标:自定义指标显示在指标表中,如任何内置指标。
若要配置自定义指标,请单击“ 添加自定义指标”。
- 输入自定义指标 的名称 。
- 选择自定义指标 类型。 选择:
Aggregate、Derived或Drift。 - 从 输入列的下拉列表中,选择要应用指标的列。
- 在 “输出类型 ”字段中,选择指标的 Spark 数据类型。
- 在 “定义 ”字段中,输入定义自定义指标的 SQL 代码。
在 UI 中编辑配置文件设置
创建配置文件后,可以通过单击“质量”选项卡上的“配置”来更改配置文件的设置。
在对话框 的“数据分析 ”部分中,单击“ 配置”。
在 UI 中刷新和查看用户资料结果
若要手动运行配置文件,请单击“ 查看刷新历史记录”。 此时会打开一个对话框,其中显示了所有以前的配置文件。 单击“ 刷新指标 ”以触发配置文件更新。
若要查看刷新历史记录,必须使用启用了数据分析的 Databricks 工作区。
有关保存在概要文件指标表中的统计信息,请参阅 监控指标表。 指标表是 Unity Catalog 表。 可以在笔记本或 SQL 查询资源管理器中查询它们,并在目录资源管理器中查看它们。
控制对配置文件输出的访问
配置文件创建的指标表和仪表板由创建配置文件的用户拥有。 可以使用 Unity 目录特权来控制对指标表的访问。 若要在工作区中共享仪表板,请单击仪表板右上角的“ 共享 ”按钮。
从 UI 中删除配置文件
若要从 UI 中删除配置文件,请按照 UI 中“编辑配置文件”设置 中的说明打开 “更新配置文件 ”对话框。 在“ 更新 ”下拉菜单中,选择“ 删除”。