关联向导 (Excel 数据挖掘客户端)

数据挖掘功能区中的关联向导

“关联”向导可帮助你使用Microsoft关联规则算法创建数据挖掘模型。 此类挖掘模型对于创建 建议系统特别有用。

其工作原理是,Microsoft关联规则算法扫描由事务或事件组成的数据集,并查找经常出现在一起的组合。 可以有多个组合,但可以自定义算法来查找更多或更少的组合,并且只保留最可能的组合。

可以将关联分析应用于许多问题。 此方法最受欢迎的应用是市场篮分析,它查找经常一起购买的单个产品。 然后,可以根据客户已购买的项目使用该信息向客户推荐产品。

使用关联向导

  1. “数据挖掘 ”功能区中,单击“ 关联”。

  2. “选择源数据 ”页上,选择 Excel 表或数据区域,然后单击“ 下一步”。

    示例数据工作簿在“关联”选项卡中提供一个示例,展示了事务数据通常是如何排列的,尤其是当每个事务中包含多个产品,或者每个客户拥有多条购买记录需要分析时。

    如果要使用外部数据通过“关联向导”生成关联模型,则必须先将数据添加到 Excel,然后展平数据。 有关准备数据进行关联建模的详细信息,请参阅 SQL Server 联机丛书中的嵌套表(Analysis Services - 数据挖掘)。

  3. “关联 ”页上,选择标识事务的列。

    对于市场篮模型,此标识符表示要建模的单位。 是否要分析各个客户在一段时间内购买的项目,还是要分析涉及多个客户的许多交易? 在第一种情况下,你将选择客户 ID;在后者中,可以选择采购订单或其他交易 ID。

  4. 对于 Item,请选择包含需要在其中查找关联的内容的列。

    例如,在市场篮模型中,可以选择一个产品字段,以分析经常一起购买的产品。 如果单个产品太多,无法有效地关联它们,则可以选择产品类别或子类别字段。

  5. 阈值中,可以设置控制或影响模型输出的值:

    • 最低支持。 指明一组项需出现多少次才能被视为重要。 该算法将忽略不符合此条件的任何项组合。 例如,你可能只想查看项集,其中项总共至少显示 10 次。

    • 最小规则概率。 指定保存规则所需的最小概率值。 分析整个数据集以查找所有组合,然后计算概率。 如果阈值较低,向导可能会关联仅松散关联的项。 如果阈值过高,可能会省略某些关联,因为它们没有足够的支持数据。

    一般情况下,更改这些值具有以下效果:

    • 降低支持值时,将增加找到的组合数。

    • 减少最大支持时,会筛选掉经常发生的项,因为它们没有什么意义。

    • 当你降低一个规则的概率时,你也降低了一个组合在总数据集的上下文中被视为重要所需满足的要求。

    提示: 最好使用不同的支持和概率组合创建多个挖掘模型。 若要跟踪用于每个模型的设置,可以使用 文档模型 向导,在 Excel 的数据挖掘客户端中可用,并使用 “详细 报表”选项。 有关详细信息,请参阅记录挖掘模型(适用于 Excel 的数据挖掘加载项)。

  6. (可选)单击“ 参数 ”以更改算法参数并自定义挖掘模型的行为。

    “算法参数”对话框包括向导中设置的所有参数,以及一些不太常用的参数,例如MAXIMUM_SUPPORT。 有关如何使用这些参数的信息,请参阅 Microsoft关联算法技术参考

  7. 在“ 完成 ”页上,键入数据集和模型的唯一名称。

  8. “选项”中,定义如何在模型完成后使用模型:

    • 浏览。 模型准备就绪后,向导将打开一个窗口,该窗口显示规则、项集和描述关联的依赖项网络图。

      有关如何解释关联模型查看器中的数据的详细信息,请参阅 浏览关联规则模型

    • 启用钻取。 选择此选项可通过模型获取对基础数据的访问权限。

      钻取功能非常有用,例如,当您想单击特定项集并查看源数据时。

    • 使用临时模型。 如果不希望在服务器上保存模型,请选择此选项。 关闭 Excel 时会删除临时模型。

  9. 该向导分析所有可能的组合,并创建一个包含项集和规则的报表。

有关关联模型的详细信息

Microsoft关联规则算法检查训练数据,以查找在事务中一起出现的项。 每组项构成一个 项集。 然后,该算法计算每个项集出现的次数,并计算所有事务中每个项集的相对重要性。

该算法使用此有关项集的信息来生成可用于预测关联或提出建议的规则。 例如,规则可以是“如果用户通过作者 1 购买书籍,以及作者 2 的书籍,则用户很可能还会通过作者 3 购买书籍”。 根据关联强度,为每个建议分配一个概率。

要求

若要使用“关联”向导,必须连接到 Analysis Services 数据库。

源数据必须组织成事务表。 源数据必须包含一个包含事务标识符的列。 此列标识每个项组。 该事务列必须与第二列(项 ID)处于一对多关系中,该列存储组中各个项的名称或 ID 号。

从概念上讲,回顾购物车的示例可能是最容易理解的方式。 如果为购物车分配了 ID,购物车 ID 将用作交易的标识符。 购物车中的每个商品(如土豆或牛奶)都是该交易的成员。 关联分析算法可以跟踪跨交易的项目:例如,确定在任一单独交易中土豆和牛奶出现的次数。

源数据必须按事务标识符列进行排序。

另请参阅

创建数据挖掘模型
浏览关联规则模型
购物篮分析 (Excel 表格分析工具)
依赖关系网络图概述(数据挖掘加载项)