扫描数据映射中的数据源

在 Microsoft Purview 中, 注册数据源后,可以扫描源以捕获技术元数据、提取架构并将分类应用于数据。

本文介绍扫描任何数据源的基本步骤。

提示

每个源都有自己的扫描说明和先决条件。 有关最完整的扫描说明,请从 支持的源列表中选择 源并查看其扫描说明。

先决条件

查看 可在 Microsoft Purview 中注册和扫描的源列表。

在扫描数据源之前,请完成以下步骤:

  1. 注册数据源。 此步骤实质上是Microsoft Purview 提供数据源的地址,并将其映射到数据映射中的 集合或域
  2. 考虑网络, 并为方案选择正确的集成运行时配置
  3. 请考虑用于连接到源的凭据。 所有 源页 都有一个 “扫描 ”部分,其中包含有关可用的身份验证类型的详细信息。

创建扫描

在以下步骤中,使用 Azure Blob 存储 作为示例,并使用 Microsoft Purview 托管标识进行身份验证。

重要

这些步骤介绍如何创建扫描。 有关特定于源的先决条件和扫描说明,请参阅 连接到数据映射的数据源

  1. 打开 Microsoft Purview 门户,转到 “数据映射>数据源”。 可以在地图或表视图中查看已注册的源。

    提示

    如果数据映射具有大量已注册的源,则表视图的性能可能会更好。

  2. 找到源并选择“ 新建扫描”。

  3. 输入扫描 的名称

  4. 对于 “凭据”,请选择身份验证方法。

  5. 选择当前域、集合或子集合进行扫描。 所选的集合或域是扫描存储发现元数据的位置。

    注意

    扫描始终与已注册的源位于同一域中,但可以选择子集合。

  6. 选择“ 测试连接”。 如果连接成功,请选择“ 继续”。 如果连接不成功,请参阅 故障排除

  7. 根据源,可以将扫描范围限定为特定的数据子集。 对于Azure Blob 存储,请通过选择列表中的相应项来选择文件夹和子文件夹。

    显示扫描窗口的范围的屏幕截图,其中选择了文件和文件夹。

  8. 选择扫描规则集。 扫描规则集包含扫描检查 的数据分类 类型。 可以选择系统默认 (,其中包含可用于源) 的所有分类、组织中的其他人创建的现有自定义规则集,或 内联创建新的规则集

    注意

    只能选择与注册源的域关联的凭据和扫描规则集。

  9. 选择扫描触发器。 可以设置计划或运行扫描一次。 详细了解支持的 计划选项

  10. 查看扫描并选择“ 保存并运行”。

计划扫描

设置扫描时,选择一次或按需运行扫描,或设置定期计划。 可以配置以下计划选项:

  • 时区:选择要与扫描计划保持一致的时区。 如果选择的时区观察到夏令时,触发器会自动调整差异。
  • 定期:选择 每日每周每月 扫描定期。
    • 每日重复:将重复周期设置为每 X 天,并指定当天的扫描开始时间。
    • 每周重复周期:将定期设置为每 X 周,选择一周中的一天或多天,并指定一天的扫描开始时间。
    • 每月重复周期:将重复周期设置为每 X 个月,选择按月天数或按工作日,选择一个月中的一天或多天或工作日,并指定一天的扫描开始时间。
  • 开始重复时间:设置扫描计划开始的时间。
  • 指定定期结束日期 (可选) :如果要在一定时间后停止扫描,请通过选择“检查”框来启用此选项,并提供结束日期。

“设置扫描触发器”页的屏幕截图。

查看扫描

根据数据源中的数据量,扫描可能需要一些时间才能运行。 下面介绍如何在扫描完成后检查进度并查看结果。

  1. 可以从集合、域或源本身查看扫描。

  2. 若要从集合或域中查看,请转到数据映射中的 集合 ,然后选择“ 扫描”。

    集合页的屏幕截图,其中突出显示了“扫描”按钮。

  3. 选择扫描名称以查看详细信息。

    集合列表中扫描的屏幕截图,其中突出显示了最新的扫描名称。

  4. 或者,可以直接转到其集合域中数据源,然后选择“查看详细信息”以检查扫描状态。

    数据映射的屏幕截图,其中突出显示了源的视图详细信息按钮。

  5. 扫描详细信息显示 上次运行状态 中的扫描进度,以及 扫描分类的资产数。

    源详细信息页的屏幕截图,其中突出显示了资产和扫描。

  6. “上次运行”状态将更新为“正在进行”,并在整个扫描成功运行后更新为“已完成”。

    源详细信息页的屏幕截图,其中显示了“正在进行”状态的扫描。

    源详细信息页的屏幕截图,其中显示了显示已完成状态的扫描。

管理扫描

扫描完成后,可以对其进行管理或再次运行。

  1. 从集合列表或源页中选择 “扫描名称 ”以管理扫描。

    源详细信息页的屏幕截图,其中突出显示了扫描名称链接。

  2. 可以再次运行扫描、编辑扫描或删除扫描。

    管理扫描页的屏幕截图,其中突出显示了“运行”、“编辑”和“删除”按钮。

  3. 可以运行完全扫描,扫描范围中的所有内容。 某些源还具有 增量扫描 选项。 增量扫描仅扫描自上次扫描以来更新的资源。 检查源页中的 “支持的功能 ”表,查看第一次扫描后,增量扫描是否可用于源。

    “立即运行扫描”按钮的屏幕截图,其中显示了完整扫描和增量扫描选项。

疑难解答

为扫描设置连接可能很复杂,因为它是针对网络和凭据的自定义设置。

如果无法连接到源,请执行以下步骤:

  1. 查看 源页 先决条件,确保不会错过任何内容。
  2. 查看源页的 “扫描 ”部分中的身份验证选项,确认是否正确设置了身份验证方法。
  3. 查看 排查连接问题
  4. 创建支持请求,以便支持团队可以帮助你对特定环境进行故障排除。

后续步骤