在 Microsoft Purview 中, 注册数据源后,可以扫描源以捕获技术元数据、提取架构并将分类应用于数据。
- 有关扫描的详细信息,请参阅 数据映射中的扫描和引入。
- 查看 扫描最佳做法。
本文介绍扫描任何数据源的基本步骤。
提示
每个源都有自己的扫描说明和先决条件。 有关最完整的扫描说明,请从 支持的源列表中选择 源并查看其扫描说明。
先决条件
查看 可在 Microsoft Purview 中注册和扫描的源列表。
在扫描数据源之前,请完成以下步骤:
- 注册数据源。 此步骤实质上是Microsoft Purview 提供数据源的地址,并将其映射到数据映射中的 集合或域 。
- 考虑网络, 并为方案选择正确的集成运行时配置。
- 请考虑用于连接到源的凭据。 所有 源页 都有一个 “扫描 ”部分,其中包含有关可用的身份验证类型的详细信息。
创建扫描
在以下步骤中,使用 Azure Blob 存储 作为示例,并使用 Microsoft Purview 托管标识进行身份验证。
重要
这些步骤介绍如何创建扫描。 有关特定于源的先决条件和扫描说明,请参阅 连接到数据映射的数据源。
打开 Microsoft Purview 门户,转到 “数据映射>数据源”。 可以在地图或表视图中查看已注册的源。
提示
如果数据映射具有大量已注册的源,则表视图的性能可能会更好。
找到源并选择“ 新建扫描”。
输入扫描 的名称 。
对于 “凭据”,请选择身份验证方法。
选择当前域、集合或子集合进行扫描。 所选的集合或域是扫描存储发现元数据的位置。
注意
扫描始终与已注册的源位于同一域中,但可以选择子集合。
选择“ 测试连接”。 如果连接成功,请选择“ 继续”。 如果连接不成功,请参阅 故障排除 。
根据源,可以将扫描范围限定为特定的数据子集。 对于Azure Blob 存储,请通过选择列表中的相应项来选择文件夹和子文件夹。
选择扫描规则集。 扫描规则集包含扫描检查 的数据分类 类型。 可以选择系统默认 (,其中包含可用于源) 的所有分类、组织中的其他人创建的现有自定义规则集,或 内联创建新的规则集。
注意
只能选择与注册源的域关联的凭据和扫描规则集。
选择扫描触发器。 可以设置计划或运行扫描一次。 详细了解支持的 计划选项。
查看扫描并选择“ 保存并运行”。
计划扫描
设置扫描时,选择一次或按需运行扫描,或设置定期计划。 可以配置以下计划选项:
- 时区:选择要与扫描计划保持一致的时区。 如果选择的时区观察到夏令时,触发器会自动调整差异。
-
定期:选择 每日、 每周或 每月 扫描定期。
- 每日重复:将重复周期设置为每 X 天,并指定当天的扫描开始时间。
- 每周重复周期:将定期设置为每 X 周,选择一周中的一天或多天,并指定一天的扫描开始时间。
- 每月重复周期:将重复周期设置为每 X 个月,选择按月天数或按工作日,选择一个月中的一天或多天或工作日,并指定一天的扫描开始时间。
- 开始重复时间:设置扫描计划开始的时间。
- 指定定期结束日期 (可选) :如果要在一定时间后停止扫描,请通过选择“检查”框来启用此选项,并提供结束日期。
查看扫描
根据数据源中的数据量,扫描可能需要一些时间才能运行。 下面介绍如何在扫描完成后检查进度并查看结果。
可以从集合、域或源本身查看扫描。
若要从集合或域中查看,请转到数据映射中的 集合 或 域 ,然后选择“ 扫描”。
选择扫描名称以查看详细信息。
或者,可以直接转到其集合或域中的数据源,然后选择“查看详细信息”以检查扫描状态。
扫描详细信息显示 上次运行状态 中的扫描进度,以及 扫描 和 分类的资产数。
“上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”。
管理扫描
扫描完成后,可以对其进行管理或再次运行。
从集合列表或源页中选择 “扫描名称 ”以管理扫描。
可以再次运行扫描、编辑扫描或删除扫描。
可以运行完全扫描,扫描范围中的所有内容。 某些源还具有 增量扫描 选项。 增量扫描仅扫描自上次扫描以来更新的资源。 检查源页中的 “支持的功能 ”表,查看第一次扫描后,增量扫描是否可用于源。
疑难解答
为扫描设置连接可能很复杂,因为它是针对网络和凭据的自定义设置。
如果无法连接到源,请执行以下步骤:
- 查看 源页 先决条件,确保不会错过任何内容。
- 查看源页的 “扫描 ”部分中的身份验证选项,确认是否正确设置了身份验证方法。
- 查看 排查连接问题。
- 创建支持请求,以便支持团队可以帮助你对特定环境进行故障排除。