第 5 课:使用 SSIS 自动执行清理和匹配

在第 1 课中,您构建了 Suppliers 知识库,并通过“DQS 客户端”工具,使用此知识库在第 2 课中清理数据以及在第 3 课中匹配数据。 在实际方案中,您可能必须从 DQS 不支持的源中提取数据,或者您希望自动执行清理和匹配过程而不必使用“DQS 客户端”工具。 SQL Server Integration Services (SSIS) 提供的组件可让您集成来自各种异构源的数据,并且它还提供了 **DQS 清理转换组件,可调用 DQS 公开的清理功能。 目前,DQS 并没有公开匹配功能供 SSIS 使用,但您可以使用模糊分组转换**来确定数据中的重复项。

您可以使用“基于实体的临时处理”功能将数据上载到 MDS。 在 MDS 中创建实体时,将自动创建相应的临时表和存储过程。 例如,当您创建 Supplier 实体时,将自动创建 stg.supplier_Leaf 表和 stg.udp_Supplier_Leaf 存储过程。 您可以使用临时表和过程来创建、更新和删除实体成员。 在本课中,您将为 Supplier 实体创建新实体成员。 要将数据加载到 MDS 服务器中,SSIS 包首先将数据加载到临时表 stg.supplier_Leaf 中,然后触发关联的存储过程 stg.udp_Supplier_Leaf。 有关详细信息,请参阅导入数据

在本课中,您将执行以下任务:

  1. 在 MDS 中删除供应商数据(如果您学完了前四课)。 您在本课中创建的 SSIS 包自动将数据上载到 MDS。 之前,您使用 DQS 客户端手动将清理和匹配的供应商数据上载到了 MDS 服务器。

  2. 在 Supplier 实体上创建订阅视图,以便向其他应用程序公开此实体中的数据。 此操作会创建一个您将使用 SQL Server Management Studio 验证的 SQL 视图。 在这一版本的教程中,您不使用此视图。

  3. 使用 SQL Server Data Tools 创建并运行 SSIS 项目。 此项目使用“数据清理”转换来向 DQS 服务器提交清理请求。 DQS 尚未公开匹配功能,因此,您将使用“模糊分组”转换来确定重复项。

  4. 验证通过使用“主数据管理器”在 MDS 中创建了数据。

  5. 查看由 SSIS 包创建的 DQS 清理项目的结果,并可选执行交互式清理以进一步生成知识库。

下一步

任务 1(先决条件):删除 MDS 中的供应商数据