购物篮分析工具帮助你在数据中找到associations。 一个协会可能会告诉你哪些商品经常同时购买。 在数据挖掘中,此方法是一种众所周知的方法,称为 市场篮分析,用于分析客户在非常大的数据集中的购买行为。 营销人员可以使用这些信息向客户推荐相关产品,并通过将相关产品在网页、目录或货架上靠近放置来推广这些产品。
若要使用购物篮分析,要分析的项目必须与交易 ID 相关。 例如,如果要分析通过网站收到的所有订单,则每个订单都有一个订单 ID 或交易 ID,该 ID 或交易 ID 与一个或多个购买的项目相关联。
向导完成数据分析后,会创建两个新工作表: 购物篮项组 和 购物篮规则。
购物篮项组工作表包含经常在交易中一起出现的项目的列表。 这些常见分组称为 项集。 工作表还包含统计信息(如 支持 和 提升),以帮助你了解项集的重要性。 如果价格信息可用,工作表还会创建所有相关项的值的总和,以指示交易的总值。
可以对报表中的列进行筛选和排序。 例如,你可能只想查看具有 2 个或多个产品的项集,或者按 “平均篮值”对项集进行排序。
购物篮规则工作表使用从分析派生的统计信息来创建有关项目相关方式的规则。 例如,一个规则可能是,如果客户购买产品 A,他们很可能购买产品 B。这些规则可用于创建建议。 每个规则都有支持统计信息,可帮助你评估规则的潜在强度,以便仅当规则超出特定概率阈值时,才能提出建议。
使用购物篮分析工具
打开包含适当数据的 Excel 表。 在示例工作簿中,单击“关联”工作表。
单击 “购物篮分析”。
在 “购物篮分析 ”对话框中,选择包含事务 ID 的列,然后选择包含要分析的项目或产品的列。
(可选)可以添加包含产品值的列。
单击“高级”打开“ 高级参数设置 ”对话框。 增加 “最低支持 ”的值以减少分组为项集的产品数。 增加 最小规则概率 以筛选出非常常见的项集。
要求
若要使用 购物篮分析工具,您的数据必须存储在 Excel 表格中,并且必须包含以下列:
包含用于标识交易的唯一 ID 的列。 ID 可以是数字或文本,只要每行中的值是唯一的。
包含要分析的项目或产品的列。
一个可选数值列,表示每个项的价格或值。 此列用于聚合每个产品中发现的项目集的值,并可以帮助你了解某些事务的总值。
物品如何关联
要分析的各个项必须由表示事例、事务或场合的某些标识符进行分组。 因此,可以选择此事务 ID 列作为标识符,而不是客户 ID 号或产品 ID 号。
当该工具检查每个事务中的产品时,它将为它找到的每个项组合创建一个项集。 例如,如果客户在一次访问时购买了三个项目,则有 7 个可能的项目集:每个产品都单独考虑,每个产品与其他一个产品分组,以及所有三种产品的组合。
注释
可以筛选出包含单个项的项集,但该工具需要分析这些项,以便为数据集生成有意义的统计信息。
每个项集的支持度计算为购买某个项集的客户数量。 在刚刚说明的示例中,如果只有一个客户购买了 3 个项目,且有 7 个可能的项集,则每个项集的支持值为 1。 随着客户数量的增长以及可能的组合数量的增长,处理报表可能需要更长的时间。 但是,某些项集的支持可能很小。 因此,你可以决定通过将每个项集中的项数限制为 3 或更少来减少生成报表所需的时间。 通常,较大的项集支持度会低得多,因此这种权衡是可以接受的。
指定最小支持率和规则概率
随着数据集的增长,可能的项分组和规则的数量可能会变得压倒性。 但是,可以控制工具输出的结果数,以便仅关注最有价值的项集和规则。 在 “购物篮高级参数”对话框中设置这些选项。
最低支持
最低支持 意味着必须包含特定项集的事务数,才能将项集视为重要项集。 例如,你可能对项集不感兴趣,除非它至少被购买在 10 个不同的交易中。 有两种方法可以控制项集重要性的阈值,均通过 最小支持 参数。
作为绝对值: 输入表示包含目标项的事务计数的数字。 例如,如果输入 10 个,则结果中包含至少 10 个购物篮中显示的任意一组商品。
百分比: 输入一个数字,表示项集的整个集合的百分比。 例如,如果指定 10 个项集,则计算所有项集,并且目标项集必须至少占项集总数的 10%。 如果你有非常大的数据集,则使用百分比而不是计数可以帮助你专注于最重要的项分组。
注释
请记住,项集的数量与数据中的交易数量不同。 每个事务可以包含多个项集;但是,大多数项集在数据集中重复多次。
规则概率和规则重要性
规则的概率描述规则的结果发生的可能性。 规则概率是使用支持规则的项集的频率计算的。 如果项集很少出现,则其概率较低。
但是,概率较高的规则可能并不总是有用的。 它们可能显示经常购买的商品组合,因此可能不需要额外的促销。 重要性旨在衡量规则的有用性。 有时,规则的概率可能很高,但重要性较低,因为预测不提供新信息。 例如,如果每个项集都包含属性的特定状态,则预测该状态的规则是微不足道的,即使概率非常高。
应尝试这些设置以查看不同的结果,并确定哪个设置生成最有趣的规则。
了解报表
购物篮分析工具创建两个补充报表。 第一个报表标题为 “分析期间标识的重要项组”提供找到的所有项集的列表。 可以使用 Microsoft Excel 中的新表格工具对数据进行排序、筛选和浏览。
第二个报表标题为 “购物篮规则”,告诉你可以根据第一个报表中列出的项集进行哪种推理。 虽然项集列表对浏览和理解数据更有用,但规则列表更适用于进行预测和建议。
购物篮项组报表
此报表包含数据集中找到的所有可能项组合的列表。 例如,如果交易数据包含订单,对于每个订单, 购物篮分析工具 将计算单个商品的订购次数,然后计算该项目与其他项目的所有组合。
报告按提升度顺序列出了找到的项集。 提升是一个分数,用于指示项集的重要性。
| 报表中的列 | 提供的信息 |
|---|---|
| 物品组 | 列出项集或项目组合。 |
| group_size | 项集中项数的计数。 您可以通过此字段进行筛选,仅查看项目对、单个项目等。 |
| 支持 | 这组组合出现的次数统计。 可以对此列进行排序,以查看最常见的项集。 |
| 平均值 | 仅此项集中项的值的总和,除以支持。 可以对此列进行排序和筛选,以针对不同价格范围内的产品。 |
| 平均篮子价值 | 包含此项集的订单中的所有项的值总和,除以支持度。 与项集的平均值配对时,此统计信息很有趣。 |
| 电梯 | 一个分数,表示此项集在整个数据集中有多有趣。 提升是通过获取两个项目共同出现的概率,然后除以两个项目独立出现的概率来计算的。 因此,如果项目之间存在很强的相关性,提升度将更高。 |
购物篮规则报表
此报告包含一组规则,这些规则是通过分析找到的项集生成的。 例如,如果您的交易数据显示产品 A 和 B 经常一起购买,那么购物篮分析工具将创建一个规则,预测在 B 存在的情况下 A 或在 A 存在的情况下 B。
每个规则都与从支持数据派生的概率相关联。 提出建议时,这些概率非常有用。 例如,你可能只希望根据现有数据查看准确率至少为 50% 的规则。
报告列出按提升顺序找到的项集。 提升分数用于衡量项集的重要性。
| 报表中的列 | 提供的信息 |
|---|---|
| 现有项 | 列出制作建议所需的项目。 在数据挖掘中,这些项据说位于关联规则的 左侧 。 |
| 预测项 | 列出要推荐的项目。 在数据挖掘中,这些项据说位于关联规则 的右侧 。 |
| 概率 | 显示此规则正确的可能性。 |
| 支持 | 指示现有数据中提供此规则证据的事例数。 |
| 规则值 | 如果为购物篮中的项提供值,则此列将计算预测的值,前提是项目的成本。 |
| 电梯 | 指示第一列中的项与第二列中的项之间的相关性强度。 也称为 重要性。 提升 0 表示没有相关性。 正值表示第一列中的项预测第二列中的项。 数字越高,相关性就越强。 |
相关工具
Excel 数据挖掘客户端是一个单独的外接程序,它提供更高级的数据挖掘功能,还包含一个执行关联分析的向导。 有关详细信息,请参阅“关联向导”(Excel 数据挖掘客户端)。
有关用于执行此分析的算法的详细信息,请参阅 SQL Server 联机丛书中的主题“Microsoft关联算法”。