使用 Unity Catalog 和 Microsoft Purview 进行数据治理
数据治理对于确保组织内的数据得到安全、高效且符合法规的管理至关重要。
在许多组织中,数据分布在数据库、数据仓库、数据湖甚至多个目录之间。 它还以各种格式存在,如 Parquet、CSV 和 Delta Lake。 除了表中的结构化数据外,文件中还存在非结构化数据,以及其他资产,如机器学习模型、笔记本和仪表板,这些资产需要管理和治理。 这种碎片化在不同的源、格式和资产类型之间创建了孤岛。
这些治理挑战直接影响组织可以从数据和 AI 派生的价值:
分片治理会增加合规性、安全性和数据质量风险,同时导致运营效率低下,因为团队难以保持其数据和 AI 环境的一致视图。
有限的连接可能导致供应商锁定,并使得在需求发生变化时采用新技术更加困难。 互作性不佳也使协作和缩放复杂化,通常会导致使用多个工具并跨系统复制数据产生更高的成本。
缺乏内置智能会限制更广泛地使用数据和 AI 平台,尤其是对于非技术用户。 这会减缓创新,延迟决策,并防止组织充分实现其数据和 AI 投资的好处。
Azure Databricks 与 Unity Catalog 和 Microsoft Purview 相结合,提供了一个用于有效地管理和治理数据的强大解决方案。
统一目录
Unity 目录提供了一种集中方式,用于管理 Azure Databricks 中数据和 AI 资产的访问、发现、世系、审核日志和质量监视。 它一致地应用于区域中的所有工作区。
元存储是顶级元数据容器;它保存有关数据资产及其管理权限的信息。 通常每个区域有一个元存储,多个工作区可以共享该元存储。
Unity 目录使用结构化 三级层次结构组织数据资产:
catalog.schema.table_or_other_object
- 目录组资产通常与团队或环境保持一致。
- 架构 (也称为数据库)在目录中进行细分,更精细地组织资产,例如按项目或用例进行组织。
- 架构中的对象包括表(托管或外部)、视图、卷、函数和模型。
表可以是托管表,也可以是外部表。 借助 托管表,Unity 目录同时处理治理和存储(始终为 Delta Lake 格式)。 借助 外部表,Unity 目录管理来自 Databricks 的访问,但数据生命周期/存储是在外部管理的。 这支持多种格式(Delta、CSV、JSON、Parquet 等)
Unity 目录通过跨多个级别的 ANSI SQL 命令(元存储、目录、架构、行和列)实现 精细访问控制 。 例如,以下命令为“finance-team”用户组提供在“mycatalog”数据库中的“myschema”中创建新表的权限。
GRANT CREATE TABLE ON SCHEMA mycatalog.myschema TO `finance-team`;
在 Unity 目录中浏览数据资产非常简单。 可以使用 目录资源管理器 和搜索界面查找所需内容。 为了帮助你,资产具有标记、注释,甚至 AI 生成的说明。 找到数据资产后,可以使用世系、表见解和实体关系图等功能来更好地了解它。
Unity Catalog 提供数据历史记录的完整信息全貌。 系统会记录访问、审计追踪以及世系——均会细致到列级别。
在大多数帐户中,创建工作区时,默认情况下会启用 Unity Catalog。 可以通过默认设置开始使用 Unity 目录。 但是,你可能希望启用可选配置。
Microsoft Purview
Microsoft Purview 是一项数据治理服务,可用于跨本地系统、多个云和 SaaS 平台管理和监督数据。 它包括数据发现、分类、世系跟踪和访问治理等功能。
与 Azure Databricks 和 Unity Catalog 集成时,Purview 可以发现 Lakehouse 数据并将其元数据导入数据映射中。 这样,就可以在整个数据环境中应用一致的治理,同时充当将来自不同源的元数据组合在一起的中心目录。
通过此集成,可以:
- 扫描由完全托管的 Microsoft Purview 集成运行时提供支持的公用和专用网络中的 Azure Databricks。
- 扫描整个 Unity Catalog metastore,或者选择仅扫描选定的目录。
- 提取一组全面的 Unity 目录元数据,包括元存储、目录、架构、表/视图和列等内容的详细信息。
- 根据内置系统分类规则或用户定义的自定义分类规则自动 对数据进行分类 ,以识别敏感数据。
- 深入了解 数据世系,显示数据如何转换和跨不同的系统和进程移动,包括在 Azure Databricks 中。
- 按需或按每日/每周/每月重复计划运行扫描。
显示 Azure Databricks 表元数据的 Microsoft Purview 的屏幕截图。
此外,Microsoft Purview 可以扫描 Azure Databricks 中的工作区级 Hive 元存储。