在本任务中,您将创建含有一个规则的匹配策略。 该规则具有一个先决条件:Supplier ID,这意味着在使用该规则中的其他域之前 Supplier ID 必须匹配。 该规则使用其他两个域:Supplier Name(“相似性”值设置为 70%)和 Contact Email(“相似性”值设置为 30%)。
在“DQS 客户端”的主页中,单击 Suppliers 知识库旁的“向右键”,然后选择“匹配策略”。
.jpg)
在“映射”页上,为“数据源”选择“Excel 文件”。
单击“浏览”,确保该筛选器设置为“Excel 工作簿”,然后选择您在执行清理活动后导出的 Cleansed Supplier List.xls 文件。
注意在此活动结束时,您不能导出结果,因为此活动的主要目的是定义匹配策略。 您将为匹配活动创建一个数据质量项目,然后,您将在下一课中运行此项目以便使用此匹配策略从供应商列表中删除重复项。
将 SupplierID 列映射到 Supplier ID 域,将 Supplier Name 列映射到 Supplier Name 域,然后将 ContactEmailAddress 列映射到 Contact Email 域。 您仅需将源列映射到要用于定义匹配策略的域。 在这个例子中,您要使用 Supplier ID、Supplier Name 和 Contact Email 域来执行匹配策略活动。
.jpg)
单击“下一步”以便移到“匹配策略”页,在该页中,您将定义含有一个规则的匹配策略。
单击工具栏上的“创建匹配规则”按钮以便在策略中创建一个规则。
.jpg)
在右侧的“规则详细信息”窗格中,为“规则名称”输入“删除重复供应商”。
在右侧窗格的工具栏中单击“添加新的域元素”。
.jpg)
对于“域”选择 Supplier ID,然后选中“先决条件”复选框。 请注意,“相似性”自动设置为“精确”。 将 Supplier ID 设置为“先决条件”,表示两条记录中此字段的值必须返回 100% 匹配,否则,这些记录将不会视为匹配且忽略规则中的其他子句。
.jpg)
再次单击工具栏中的“添加新的域元素”。
选择 Supplier Name 域,对于“相似性”选择“相似”,然后为“权重”键入 70。 在这里,您指定供应商名称无需完全相同,但可以相似,以便将记录视作匹配。 权重指示该字段的分数对总匹配分数的贡献。
重复执行前两个步骤以便添加“权重”为 30 的 Contact Email 域。
请注意,“最低匹配分数”设置为 80%,这是您在“DQS 管理”的“配置”页的“常规”选项卡中看到的值。 您只能将此分数增加为高于此处的这个阈值。
请注意,已选择了“重叠的群集”选项。 通过此选项,一条记录可以显示在多个群集中。 如果您将该设置为更改为“不重叠的群集”,则具有公共记录的多个群集将合并成单个群集。
通过此页上的“开始”按钮,您可以单独测试策略中的每条规则;而通过下一页中的“开始”按钮,您可以测试整个策略(该策略中的所有规则)。
单击“下一步”以切换到“匹配结果”页。