第 2 课:使用 Suppliers 知识库清理供应商数据

在本课中,您将通过使用在第一课中创建的 Suppliers 知识库来清理 Excel 文件中的供应商数据。 DQS 中的数据清理包括“计算机辅助过程”和“交互式过程”,前者分析数据与知识库中知识的符合程度,后者允许您查看和修改计算机辅助过程的结果。 数据清理功能可以识别数据源中不正确的数据,然后对这些数据进行更正或提出更正建议。 它还通过使用域值、同义词的前导值、域规则、基于字词的关系和参考数据来使客户数据标准化和更加丰富。 您可以通过交互方式批准或拒绝计算机辅助过程建议的更改。 有关详细信息,请参阅数据清理

计算机辅助过程使用以下阈值,您可以使用 DQS 客户端主页上的“配置”选项来配置这些阈值。

  • **用于建议的最低分数:**DQS 用于建议替换值的最低分数或置信度。

  • **用于自动更正的最低分数:**DQS 用于自动更正值的最低分数或置信度。

有关如何配置这些设置的详细信息,请参阅配置清理和匹配活动的阈值

在本课中,您将执行以下任务来使用 Suppliers 知识库清理输入数据。

  1. 创建用于清理的数据质量项目,选择 Suppliers 知识库作为要用于分析和清理 Excel 文件中源数据的知识库,然后选择“清理”活动。

  2. 将要清理的 Excel 列映射为知识库中适当的 DQS 域/复合域。

  3. 运行计算机辅助的清理活动。 计算机辅助过程会在数据质量客户端中显示数据质量信息,您可以使用该客户端以交互方式清理数据。

  4. 查看和管理清理活动的结果。 您可以查看计算机辅助过程找到的正确值、不正确但是已更正的值、不正确并提供更改建议的值或无效值。 您可以交互方式批准或拒绝更改,通过使用“更正为”字段更正或覆盖计算机辅助过程给出的建议值。

  5. 将清理过程的结果导出到 Excel 文件。

  6. 将清理项目的值导入域,以使用新的规则、值和更正等增加知识库中的知识。

下一步

任务 1:创建数据质量项目