数据质量监控

数据质量监视有助于确保 Unity 目录中所有数据资产的质量。 数据质量监视包括以下功能:

  • 异常情况检测。 异常情况检测支持可缩放的数据质量监视,只需单击一下即可。 它通过智能扫描监视架构中的所有表格,优先处理重要表格,并跳过低影响的表格。 Databricks 通过分析历史数据模式来评估每个表的新鲜度和完整性,从而自动评估数据质量。
  • 数据分析。 数据分析提供表中数据的摘要统计信息。 还可以通过监视包含模型输入和预测的推理表来跟踪 GenAI 应用、机器学习模型和模型服务终结点的性能。

数据剖析以前称为 Lakehouse Monitoring。

为何使用异常情况检测?

要从数据中获取有用的见解,必须对数据的质量充满信心。 异常情况检测监视器启用了表,以实现 新鲜度完整性

新鲜度 是指最近更新表的方式。 异常情况检测将分析提交到表的历史记录,并生成每表模型来预测下一次提交的时间。 如果提交异常迟到,表将标记为过时。

完整性 是指预期在过去 24 小时内写入表的行数。 异常情况检测将分析历史行计数,并根据此数据预测一系列预期的行数。 如果过去 24 小时内提交的行数小于此范围的下限,则表将标记为不完整。

为何使用数据分析?

数据分析提供定量度量值,可帮助你跟踪和确认数据随时间推移的质量和一致性。 数据分析可捕获表数据分布的历史指标或相应的模型的性能,这些指标可用于快速摘要统计信息。 可以使用这些指标监视表并发送有关更改的警报。

数据分析可帮助你回答如下问题:

  • 数据完整性是怎样的,它如何随时间变化? 例如,当前数据中 null 值或零值的比例是多少,是否增加?
  • 数据的统计分布是怎样的,它如何随时间变化? 例如,数字列的第 90 个百分位数是多少? 或者,分类列中的值分布情况如何?它与昨天有什么不同?
  • 当前数据与已知基线之间或数据的连续时间窗口之间是否存在偏移?
  • 数据的子集或切片的统计分布或偏移是怎样的?
  • ML 模型输入和预测如何随时间变化?
  • 模型性能随时间推移的趋势如何? 模型版本 A 的性能是否优于版本 B?

此外,数据分析允许你控制观察的时间粒度并设置自定义指标。

数据质量监视 不会 修改它监视的任何表,也不会为填充这些表的任何作业增加开销。

数据质量监控入门

有关异常情况检测的详细信息,请参阅 异常情况检测

有关数据分析的详细信息,请参阅 数据分析