在 Databricks UI 中创建个人资料

本文演示如何使用 Databricks UI 创建数据配置文件。 还可以使用 API

若要访问 Databricks UI,请执行以下作:

  1. 在工作区左侧栏中,单击 “数据”图标。 打开 目录资源管理器

  2. 导航到要分析的表。

  3. 单击“ 质量 ”选项卡。

  4. 如果未为此架构启用 异常情况检测 ,请单击“ 启用”。

    尚未启用数据分析质量选项卡。

    如果为此架构启用了异常情况检测,请单击“ 配置”。

    数据分析质量选项卡(已启用)。

  5. “数据质量监视 ”对话框中的 “数据分析 ”字段中,单击“ 配置”。

    数据质量监视器对话框。

  6. 在对话框中,选择 配置文件类型。 以下部分介绍每种类型的配置文件类型选项和附加选择。

分析

“配置文件类型 ”下拉菜单中,选择要创建的配置文件的类型。 表显示了配置文件类型。

配置文件类型 Description
时间序列概要 包含一段时间内测量的值的表。 此表包含时间戳列。
快照配置文件 任何 Delta 托管表、外部表、视图、具体化视图或流式处理表。
推断配置文件 包含机器学习分类或回归模型输出的预测值的表。 此表包括时间戳、模型 ID、模型输入(特征)、包含模型预测的列,以及包含唯一观察 ID 和地面真实标签的可选列。 它还可以包含元数据(如人口统计信息),这些元数据不用作模型的输入,但对于公平性和偏见调查或其他任务可能很有用。

如果选择 TimeSeriesInference,则需要其他参数,并在以下部分中进行介绍。

注释

  • 首次创建时序或推理配置文件时,配置文件仅分析创建前的30天数据。 创建配置文件后,将处理所有新数据。
  • 在具体化视图上定义的监视器不支持增量处理。

小窍门

对于 TimeSeriesInference 配置文件,最佳做法是在表上启用更改数据馈送(CDF)。 启用 CDF 后,只会处理新追加的数据,而不是每次刷新时重新处理整个表。 这提升了执行效率,并在多个表中扩展分析时降低了成本。

TimeSeries 轮廓

对于TimeSeries配置文件,您必须选择以下选项:

  • 指定 指标粒度 ,确定如何在时段内对数据进行分区。
  • 指定 Timestamp 列,即包含时间戳的表中的列。 时间戳列数据类型必须是TIMESTAMP或可以使用 to_timestamp转换为时间戳的类型。

Inference 轮廓

对于Inference配置文件,除了粒度和时间戳外,还必须进行以下选择:

  • 选择 问题类型,分类或回归。
  • 指定 预测列,该列包含模型的预测值。
  • (可选)指定 Label 列,该列包含模型预测的基础真相。
  • 指定 模型 ID 列,该列包含用于预测的模型的 ID。

高级选项

“高级选项 ”部分中,可以设置计划、添加电子邮件通知、添加自定义指标和切片表达式,以及更改默认配置文件配置。

时间表

若要设置配置文件以按计划运行,请选择 “按计划刷新 ”,然后选择配置文件要运行的频率和时间。 如果不希望配置文件自动运行,请选择 “手动刷新”。 如果手动选择 “刷新”,则可以稍后从“ 质量 ”选项卡中刷新指标。

Notifications

若要为某个配置文件设置电子邮件通知,请输入将接收通知的电子邮件地址,然后选择要启用的通知选项。 每个通知事件类型最多支持 5 封电子邮件。

Metrics

“指标 ”部分中,可以选择更改以下默认设置:

  • 指标表架构名称:存储配置文件创建的指标表的 Unity 目录架构。 此位置的格式必须为 {catalog}。{schema}。 默认情况下,此值被设置为与已分析的表相同的模式位置。 可以指定其他位置。

  • 资产目录:用于存储数据分析资产的现有目录的绝对路径。 默认情况下,资产存储在默认目录中:“/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}”。 如果在此字段中输入其他位置,将在指定的目录中的“/{table_name}”下创建资产。 此目录可以位于工作区中的任意位置。 对于要在组织内共享的配置文件,可以使用“/Shared/”目录中的路径。

    此字段不能留空。

还可以指定以下设置:

  • Unity 目录基线表名称:包含比较基线数据的表或视图的名称。
  • 指标切片表达式:切片表达式允许除整个表外定义要分析的表子集。 若要创建切片表达式,请单击“ 添加表达式 ”并输入表达式定义。 例如,表达式 "col_2 > 10" 生成两个切片:一个用于 col_2 > 10 和一个用于 col_2 <= 10。 作为另一个示例,表达式 "col_1" 将为每个唯一值 col_1生成一个切片。 数据按每个表达式独立分组,从而为每个谓词及其补码生成单独的切片。
  • 自定义指标:自定义指标显示在指标表中,如任何内置指标。 若要配置自定义指标,请单击“ 添加自定义指标”。
    • 输入自定义指标 的名称
    • 选择自定义指标 类型。 选择: AggregateDerivedDrift
    • 输入列的下拉列表中,选择要应用指标的列。
    • “输出类型 ”字段中,选择指标的 Spark 数据类型。
    • “定义 ”字段中,输入定义自定义指标的 SQL 代码。

在 UI 中编辑配置文件设置

创建配置文件后,可以通过单击“质量”选项卡上的“配置”来更改配置文件的设置。

配置现有配置文件。

在对话框 的“数据分析 ”部分中,单击“ 配置”。

“更新配置文件”对话框。

在 UI 中刷新和查看用户资料结果

若要手动运行配置文件,请单击“ 查看刷新历史记录”。 此时会打开一个对话框,其中显示了所有以前的配置文件。 单击“ 刷新指标 ”以触发配置文件更新。

若要查看刷新历史记录,必须使用启用了数据分析的 Databricks 工作区。

有关保存在概要文件指标表中的统计信息,请参阅 监控指标表。 指标表是 Unity Catalog 表。 可以在笔记本或 SQL 查询资源管理器中查询它们,并在目录资源管理器中查看它们。

控制对配置文件输出的访问

配置文件创建的指标表和仪表板由创建配置文件的用户拥有。 可以使用 Unity 目录特权来控制对指标表的访问。 若要在工作区中共享仪表板,请单击仪表板右上角的“ 共享 ”按钮。

从 UI 中删除配置文件

若要从 UI 中删除配置文件,请按照 UI 中“编辑配置文件”设置 中的说明打开 “更新配置文件 ”对话框。 在“ 更新 ”下拉菜单中,选择“ 删除”。

删除配置文件。