数据分析

本文介绍数据分析。 它概述了数据分析的组件和使用情况。

数据分析为表提供汇总统计信息,并随时间推移计算分析指标,以便轻松查看历史趋势。 它可用于深入监视选择表的所有关键指标。 还可以通过分析包含模型输入和预测的推理表来跟踪机器学习模型和模型服务终结点的性能。 该图显示了 Databricks 中数据和 ML 管道中的数据流,以及如何使用概要分析持续跟踪数据质量和模型性能。

数据分析概述

为何使用数据分析?

定量指标有助于跟踪和确认数据随时间推移的质量和一致性。 检测到表的数据分布或相应模型性能中的更改时,数据分析创建的表可以捕获并提醒你更改,并帮助确定原因。

数据分析可帮助你回答如下问题:

  • 数据完整性是怎样的,它如何随时间变化? 例如,当前数据中 null 值或零值的比例是多少,是否增加?
  • 数据的统计分布是怎样的,它如何随时间变化? 例如,数字列的第 90 个百分位数是多少? 或者,分类列中的值分布情况如何?它与昨天有什么不同?
  • 当前数据与已知基线之间或数据的连续时间窗口之间是否存在偏移?
  • 数据的子集或切片的统计分布或偏移是怎样的?
  • ML 模型输入和预测如何随时间变化?
  • 模型性能随时间推移的趋势如何? 模型版本 A 的性能是否优于版本 B?

此外,数据分析允许你控制观察的时间粒度并设置自定义指标。

要求

  • 必须已为 Unity Catalog 启用工作区,并且必须有权访问 Databricks SQL。
  • 若要启用数据分析,必须具有以下权限:
    • USE CATALOG 在目录上,USE SCHEMA 在包含表的架构上。
    • SELECT 在桌子上。
    • MANAGE 在目录、Schema 或表中。

注释

数据剖析使用无服务器计算来处理作业,但不需要您的帐户启用无服务器计算。 有关跟踪费用的信息,请参阅 查看数据质量监视费用

数据分析的工作原理

若要分析表,请创建与表关联的配置文件。 若要分析机器学习模型的性能,可将配置文件附加到保存模型输入和相应预测的推理表。

数据剖析提供以下类型的分析:时序、推理和快照。

配置文件类型 Description
时序 用于包含基于时间戳列的时序数据集的表。 分析可跨时序的基于时间窗口计算数据质量指标。
推理 用于包含模型请求日志的表。 每一行都是一个请求,其中包含时间戳的列、模型输入、相应的预测和(可选)实数标签。 分析可比较基于时间的请求日志窗口的模型性能和数据质量指标。
快照 用于所有其他类型的表。 分析可计算表中所有数据的数据质量指标。 每次刷新时都会处理完整的表。

本部分简要介绍了数据分析使用的输入表及其生成的指标表。 该图显示了输入表、指标表、配置文件和仪表板之间的关系。

数据分析关系图

主表和基线表

除了要分析的表(称为“主表”)之外,您还可以选择指定一个基线表作为参考,以测量数据漂移或随时间的数值变化。 如果具有预期数据外观的示例,基线表非常有用。 其思路是,然后,计算相对于预期数据值和分布的偏移。

基线表应包含数据集,该数据集反映输入数据在统计分布、单个列分布、缺失值和其他特征方面的预期质量。 它应与分析表的架构匹配。 与时序或推理配置文件结合使用的表的时间戳列例外。 如果主表或基线表中缺少列,则分析使用最佳启发法来计算输出指标。

对于使用快照配置文件的概要文件,基线表应包含数据快照,其中数据的分布代表可接受的质量标准。 例如,在成绩分布数据上,可以将基线设置为上一个成绩均匀分布的班级。

对于使用时序配置文件的资料,基线表应包含表示数据在时间窗口内符合可接受质量标准的数据分布的资料。 例如,在天气数据上,可以将基线设置为周、月或年,其中温度接近预期的正常温度。

对于使用推理配置文件的档案,一个不错的基线选择是用于训练或验证所分析模型的数据。 这样,当数据相对于模型训练和验证所基于的内容偏移时,可以向用户发出警报。 此表应包含与主表相同的功能列,还应具有为主表的 InferenceLog 指定的相同 model_id_col,以便数据一致地聚合。 理想情况下,应使用用于评估模型的测试或验证集以确保可比较的模型质量指标。

指标表和仪表板

性能分析将创建两个指标表和一个仪表板。 指标值是针对整个表计算的,以及创建配置文件时指定的时间窗口和数据子集(或“切片”)。 此外,对于推理分析,会为每个模型 ID 计算指标。 有关指标表的更多详细信息,请参阅 数据分析指标表

  • 配置文件指标表包含摘要统计信息。 请参阅配置文件指标表架构
  • 偏移指标表包含与数据随时间偏移相关的统计信息。 如果提供了基线表,则会将偏移情况相对于基线值进行分析。 请参阅偏移指标表架构

指标表是 Delta 表,存储在指定的 Unity Catalog 架构中。 可以使用 Databricks UI 查看这些表,使用 Databricks SQL 对其进行查询,并基于它们创建仪表板和警报。

对于每个数据集,Databricks 会自动创建一个仪表板,帮助你可视化和展示数据集结果。 仪表板是完全可自定义的。 请参阅 仪表板

局限性

  • 仅支持 Delta 表进行剖析,并且表必须是以下类型之一:托管表、外部表、视图、物化视图或流式表。
  • 通过物化视图创建的配置文件不支持增量处理。
  • 并非所有区域都受支持。 有关区域支持,请参阅表 AI 和机器学习功能可用性中的列数据分析
  • 使用时序或推理分析模式创建的档案仅计算最近30天的指标。 如果需要对此进行调整,请联系 Databricks 帐户团队。

开始使用数据分析

请参阅以下文章以开始使用: