第 1 课:创建供应商 DQS 知识库

在本课中,你将创建一个名为 “供应商 ”的 DQS 知识库,其中包含有关供应商数据的知识(元数据)。 使用知识库对输入供应商数据执行清理和匹配活动。 清理活动可识别不正确的/无效数据、更正不正确的数据、建议更正/建议、标准化数据,以及使用更多信息丰富数据。 匹配活动比较数据并标识数据中的类似记录(但略有不同),以帮助删除数据上的重复项。

可以使用交互式进程和计算机辅助进程来创建、生成和管理知识库。 知识库中的知识在域中进行维护,每个知识都特定于要清理和/或匹配的数据中的数据字段。

在本课中,你将执行以下任务来创建 供应商 知识库:

  • 创建名为 “供应商”的 DQS 知识库。 可以通过多种方式创建知识库。 可以从头开始生成知识库,也可以基于现有知识库或导入包含预生成和导出知识库的 DQS 文件(.dqs),或者对示例数据执行知识发现活动来生成知识库。 在本教程中,你将从头开始创建知识库。

  • 在用于清理数据的 供应商 知识库中创建域,并匹配数据以标识重复项。 仅为要在清理和匹配活动中使用的数据字段创建域,而不是为数据中的所有数据字段创建域。

  • 通过手动添加值、从 Excel 文件导入值、对示例数据执行知识发现活动以及从清理项目导入项目值,向域添加值。 还可以通过导入包含域属性和值的 DQS 文件(在本教程中不执行)来导入域值。

  • 为域设置规则。 域规则是 DQS 用来验证、更正和标准化域值的条件。

  • 为域设置基于术语的关系。 术语关系使您能够对属于特定领域中的值的术语进行修改。 例如,在Contoso Inc., Inc.这个值中,"Inc." 是一个可以定义为 "Incorporated" 的术语。 这有助于标准化数据以及识别重复项。 例如, Contoso Inc.Contoso Incorporated 可被视为重复项。

  • 在域值中指定同义词。 可以将两个或多个值设置为同义词,并将其中一个值设置为前导值,这会在清理活动期间替换其同义词值以标准化数据。

  • 创建一个名为“地址验证”的复合域,该域包括地址行、城市、州和 Zip 域。 复合域是由一个或多个单一域组成的域。 它允许创建涉及多个域的规则。 例如,可以定义一个规则:如果城市是洛杉矶,则州必须是 CA,其中 City 和 State 是两个单独的域。

  • 配置和使用引用数据服务。 使用数据质量服务(DQS)中的“参考数据服务”功能,您可以订阅第三方参考数据提供商,并通过验证您的业务数据与其高质量数据进行比对,来清理和丰富您的业务数据。 可以使用来自 DQS 中的领先 DQS 提供程序的服务在清理过程中标准化、更正或扩充数据。 本教程介绍如何将 DQS 环境配置为使用 Azure 市场上的引用数据服务,并使用与地址验证复合域关联的服务来清理地址数据。

  • 发布知识库,以便知识库可用于清理和匹配活动。

下一步

任务 1:创建知识库和域