模糊合并

模糊合并 是一项智能数据准备功能,可用于在比较列时应用模糊匹配算法。 这些算法尝试查找正在合并的表中的匹配项。

可以通过选择“使用模糊匹配执行合并选项”按钮,在合并对话框底部启用模糊匹配。 更多信息:合并操作概述

注释

模糊匹配仅支持对文本列进行合并操作。 Power Query 使用 Jaccard 相似性算法来度量实例对之间的相似性。

示例方案

模糊匹配的一个常见应用场景是处理自由文本字段,例如在调查问卷中。 在本文中,示例表直接从发送给一个只有一个问题的联机调查中获取: 你最喜欢的水果是什么?

该调查的结果如下图所示。

包含原始数据的示例调查。

示例调查输出表的屏幕截图,其中包含列分布图,其中显示了具有所有唯一答案的九个不同答案,以及包含所有拼写错误、复数或单数和案例问题的调查答案。

这九条记录反映了问卷调查提交的内容。 调查提交的问题是,有些有拼写错误,有的是复数,有些是单写的,有些是大写的,有些是小写的。

为了帮助标准化这些值,此示例中有一个 “水果 ”引用表。

水果参考表。

包含列分布图的水果参考表的屏幕截图,其中显示了具有所有水果唯一的四个不同的水果,以及水果列表:苹果、菠萝、西瓜和香蕉。

注释

为简单起见,此 水果 参考表仅包含此方案所需的水果的名称。 引用表可以具有任意数量的行。

目标是创建如下表,其中已标准化所有这些值,以便可以执行更多分析。

示例调查输出表。

示例调查输出表的屏幕截图,显示“问题”列及其列分布图。 该图显示了九个不同的答案,所有答案都是唯一的。 调查的答案包含所有拼写错误、复数或单数问题以及案例问题。 输出表还包含水果 (Fruit) 列。 此列包含列分布图,其中显示了具有一个唯一答案的四个不同答案。 它还列出了所有水果,以正确拼写、单数形式和适当大小写。

模糊合并操作

若要完成模糊合并,请首先执行合并。 在这种情况下,使用左外连接,其中左表来自调查,右表是水果参考表。 在对话框底部,选中“ 使用模糊匹配执行合并 ”复选框。

“合并”对话框的屏幕截图,其中显示了如何使用模糊匹配来执行合并选项。

选择 “确定”后,由于此合并作,可以在表中看到一个新列。 如果展开它,会发现有一行没有任何数值。 这正是上图中对话框中的消息所说的:“所选内容与第一个表中的 9 行中的 8 行匹配。”

“水果”列中的模糊匹配结果。

添加到 Survey 表的水果列的屏幕截图。 “问题”列中的所有行都会展开,但第 9 行除外,无法展开,Fruit 列包含 null。

模糊匹配选项

可以修改 模糊匹配选项 ,以调整近似匹配的完成方式。 首先,选择 “合并查询 ”命令,然后在 “合并 ”对话框中展开 模糊匹配选项

显示模糊匹配选项的“合并”对话框的屏幕截图。

可用选项包括:

  • 相似性阈值(可选):一个介于 0.00 和 1.00 之间的值,可提供匹配给定相似性分数以上记录的能力。 阈值为 1.00 与指定完全匹配条件相同。 例如,当阈值设置为小于 0.90 时, GrapesGraes 匹配(缺少字母 p)。 默认情况下,此值设置为 0.80。
  • 忽略大小写:无论文本大小写如何,都允许匹配记录。
  • 通过组合文本部件进行匹配:允许组合文本部件查找匹配项。 例如,如果启用此选项,Micro softMicrosoft 匹配。
  • 显示相似性分数:显示输入与模糊匹配后的匹配值之间的相似性分数。
  • 匹配数(可选):指定可为每个输入行返回的最大匹配行数。
  • 转换表(可选):允许基于自定义值映射匹配记录。 例如,如果提供了转换表,其中From列包含葡萄,而To列包含葡萄干,则葡萄葡萄干匹配。

转换表

对于本文中的示例,可以使用转换表来映射缺少对的值。 该值是 apls,需要映射到 Apple。 转换表有两列:

  • 中包含要查找的值。
  • To 包含用于替换通过 From 列找到的值的新值。

在本文中,转换表如下所示:

来自
apls 苹果

可以返回到“合并”对话框,然后在“匹配数”下的模糊匹配选项中输入 1。 启用 “显示相似性分数 ”选项,然后在 “转换”表下,从下拉菜单中选择 “转换表 ”。

“合并”对话框的屏幕截图,其中匹配项数设置为 1,转换表设置为“转换”表。

选择 “确定”后,可以转到合并步骤。 使用表值展开列时,除了 “水果 ”字段外,还会看到 “相似性分数”字段。 选择并展开两个项目,而不添加前缀。

“水果”列的表展开对话框的屏幕截图,其中选择了“水果”和“相似性分数”字段。

扩展这两个字段后,它们会被添加到表格中。 请记录每个值的相似性分数。 如果需要确定应降低或提高相似性阈值,这些分数可以帮助你进行进一步的转换。

出现模糊合并过程后表输出的屏幕截图,其中显示了每个值的新“水果”和“相似性分数”字段。

对于此示例, 相似性分数 仅用作其他信息,并且此查询的输出中不需要这些信息,因此可以将其删除。 请注意该示例如何以九个不同值开头,但在模糊合并之后,只有四个不同值。

模糊合并调查输出表。

模糊合并调查输出表的屏幕截图,其中包含包含列分布图的“问题”列,其中显示了具有所有唯一答案的 9 个不同答案,以及所有拼写错误、复数或单数问题以及案例问题的调查答案。 此外,还包含“水果”列,其中列分布图显示四个不同的答案和一个独特的答案,并正确列出所有水果,且拼写正确、形式为单数并且大小写正确。

有关转换表工作原理的详细信息,请转到 转换表先决条件