任务 2:测试和发布匹配策略

在本任务中,您将测试和发布“删除重复的供应商”匹配策略。

  1. 在“匹配结果”页上,单击“开始”以测试整个策略。 对于您,此策略中只有唯一的一条规则,因此,测试此规则和策略的结果应该相同。

  2. 在列表框中查看所有匹配的记录及其匹配分数。 具有“绿色”图标的记录是其之前的透视记录的重复记录。 示例如下:

    1. 具有 Record ID: 1000005 的记录是具有 Record Id: 1000004 以及 Score: 100% 的记录的匹配项,因为这两个记录对于 SupplierID(先决条件)、Supplier NameContactEmailAddress 列具有相同的值。 DQS 随机选择一条记录作为群集的透视记录。

    2. 记录 1000023 是记录 1000022 的匹配项,其匹配分数为 93%,因为这两条记录对于 SupplierID 列(先决条件)和 Supplier Name 列具有相同的值,但对于 ContactEmailAddress 列具有不同的值。

    3. 滚动到列表底部,以查看具有以下记录 ID 的两条记录:10000511000052。 记录 1000052 被认为是匹配分数为 91% 的匹配项,因为这两条记录对于 SupplierID 列和 ContactEmailAddress 列具有相同的值,但对于 Supplier Name 列具有不同的值。

    策略定义 - 策略结果

  3. 右键单击任何匹配的记录(具有绿色图标),然后单击“查看详细信息”以查看有关匹配的详细信息,如每个字段分数对于总体匹配分数的贡献。

    “匹配分数详细信息”对话框

  4. 单击“关闭”以关闭“匹配分数详细信息”对话框。

  5. 单击页面底部的“匹配结果”选项卡。 此选项卡向您提供了详细信息,例如匹配的记录数、不匹配的记录数、具有匹配记录的群集数、平均群集大小、最小群集大小和最大群集大小。 有关详细信息,请参阅创建匹配策略。 您无法从此活动中导出结果。 您刚刚使用示例数据定义了一个匹配策略,以对照示例数据测试规则和策略。

    “匹配结果”选项卡

  6. 单击“完成”以完成创建匹配策略。

    注意注意

    您已在此定义了匹配策略;因此,您无法将结果导出到输出文件。 大致说来,您使用了示例输入文件,创建了规则,并且为了定义策略而对照示例数据测试了规则和策略。

  7. 在“SQL Server Data Quality Services”对话框中,单击“发布”并在消息框中单击“确定”。 现在,您定义的匹配策略已发布到 Suppliers 知识库。 您可以使用此知识库来针对输入文件运行匹配过程,以确定和解决重复项。

下一步

任务 3:创建并运行数据质量项目以进行匹配