在本课中,你将创建一个名为 “供应商 ”的 DQS 知识库,其中包含有关供应商数据的知识(元数据)。 使用知识库对输入供应商数据执行清理和匹配活动。 清理活动可识别不正确的/无效数据、更正不正确的数据、建议更正/建议、标准化数据,以及使用更多信息丰富数据。 匹配活动比较数据并标识数据中的类似记录(但略有不同),以帮助删除数据上的重复项。
可以使用交互式进程和计算机辅助进程来创建、生成和管理知识库。 知识库中的知识在域中进行维护,每个知识都特定于要清理和/或匹配的数据中的数据字段。
在本课中,你将执行以下任务来创建 供应商 知识库:
创建名为 “供应商”的 DQS 知识库。 可以通过多种方式创建知识库。 可以从头开始生成知识库,也可以基于现有知识库或导入包含预生成和导出知识库的 DQS 文件(.dqs),或者对示例数据执行知识发现活动来生成知识库。 在本教程中,你将从头开始创建知识库。
在用于清理数据的 供应商 知识库中创建域,并匹配数据以标识重复项。 仅为要在清理和匹配活动中使用的数据字段创建域,而不是为数据中的所有数据字段创建域。
通过手动添加值、从 Excel 文件导入值、对示例数据执行知识发现活动以及从清理项目导入项目值,向域添加值。 还可以通过导入包含域属性和值的 DQS 文件(在本教程中不执行)来导入域值。
为域设置规则。 域规则是 DQS 用来验证、更正和标准化域值的条件。
为域设置基于术语的关系。 术语关系使您能够对属于特定领域中的值的术语进行修改。 例如,在Contoso Inc., Inc.这个值中,"Inc." 是一个可以定义为 "Incorporated" 的术语。 这有助于标准化数据以及识别重复项。 例如, Contoso Inc. 和 Contoso Incorporated 可被视为重复项。
在域值中指定同义词。 可以将两个或多个值设置为同义词,并将其中一个值设置为前导值,这会在清理活动期间替换其同义词值以标准化数据。
创建一个名为“地址验证”的复合域,该域包括地址行、城市、州和 Zip 域。 复合域是由一个或多个单一域组成的域。 它允许创建涉及多个域的规则。 例如,可以定义一个规则:如果城市是洛杉矶,则州必须是 CA,其中 City 和 State 是两个单独的域。
配置和使用引用数据服务。 使用数据质量服务(DQS)中的“参考数据服务”功能,您可以订阅第三方参考数据提供商,并通过验证您的业务数据与其高质量数据进行比对,来清理和丰富您的业务数据。 可以使用来自 DQS 中的领先 DQS 提供程序的服务在清理过程中标准化、更正或扩充数据。 本教程介绍如何将 DQS 环境配置为使用 Azure 市场上的引用数据服务,并使用与地址验证复合域关联的服务来清理地址数据。
发布知识库,以便知识库可用于清理和匹配活动。