使用 “浏览”打开关联模型时,模型会显示在交互式查看器中,类似于 Analysis Services 中的关联规则查看器。 通过查看器,你可以一目了然地查看哪些项目彼此相关,并显示可用于预测或提出建议的规则。
浏览模型
打开使用Microsoft关联规则算法创建的挖掘模型时, “浏览” 窗口包括以下视图,每个视图旨在让你浏览模型的不同方面:
请注意每个标签页上的功能, 显示长名称 。 通过选择此选项,可以显示或隐藏项集源自的表,并缩短或延长规则或项集的名称。 当事例数据和属性数据来自不同数据源时,此选项特别有用。
若要试验关联模型,可以使用示例数据工作簿的“关联”选项卡上的示例数据,并使用所有默认值生成关联模型。 还可以生成购物篮分析模型,并使用 “浏览”打开该模型。
项集
“ 项集 ”选项卡是开始探索关联模型的好位置。 此选项卡显示模型经常一起找到的项目列表。
项集最常见的示例是在购物篮模型中,其中项集表示大量客户同时购买的产品对或一组产品。 但是,根据对项目进行分组和排序的方式,项目集可能包含客户在一段时间内订购的电影序列,或在特定位置发生的事件。
项集可以包含从一个项到多个项,最大项数由模型的设置决定。 对于每个项集,查看器将显示项集 支持、 概率和 大小。 支持和概率是用于对关联模型生成的项集和规则进行排名的主要统计信息。 这些值还用于计算和描述其重要性。
支持。 支持度意味着具有此项的输入数据的案例数或行数。 例如,如果项集包含购物车中找到的两个项目, 支持 列中的数字指示该组合在源数据中出现的次数。
大小。 通过更改项集大小,可以控制项集列表的长度。 如果不想在列表中看到单个产品,请将选项“ 最小项集大小”更改为 2 个或多个。 通过增加项集的最小大小来限制列表,可以查找非常具体的模式。 如果使用的是非常大的数据集,这可能很有用。
您可以通过更改 最小支持度 和 最大行数 的值来过滤选项卡中显示的项集数量。 如果增加 “最低支持 ”值,则列表将显示较少的项集,但项集将是输入数据中较常见的项集。 常见是否与重要问题相同是另一个问题,可以使用“ 规则 ”选项卡进行探索。
请注意,更改 “项集 ”选项卡上的支持值或其他控件只会更改显示的项,并且不会影响基础模型。 如果您希望生成较少或较多项集,或者限制项集的大小,则应使用在“算法参数”对话框中可用的MINIMUM_SUPPORT和MAXIMUM_SUPPORT参数。
浏览项集列表
单击 “支持 ”列,按最高到最低支持进行排序。 这将让你了解客户最常购买的内容。
若要专注于感兴趣的特定项集,请在“筛选项集”框中键入文本,从数千种可能的组合中进行筛选。
在这里,我们键入了
Gloves。 应用筛选器时,将刷新列表以仅显示包含手套的项集。 这使你可以专注于客户购买手套和其他一些商品的交易。“筛选项集”选项还显示之前使用的筛选器的列表。
更改 最小项目集大小 的值,以筛选出只购买手套且没有其他物品的客户。
单击选项 “显示”的下拉列表,控制属性的显示方式:
显示属性名称和值
仅显示属性值
仅显示属性名称
请注意名称的更改方式。 对于市场篮模型,该模型基于多个客户购买的产品嵌套表构建,属性名称通常是产品名称,并且列表中的产品存在被
Existing标记为,这意味着客户确实购买了该项目。相比
Existing,Missing是一个非常有用的属性,可以在数据挖掘中进行分析。 例如,假设项集 A +B 非常受欢迎,你希望查找购买 A 项但不是项 B 的客户。为此,可以使用预测查询,并使用一个而不是另一个查询检索事务,并对这些事务执行一些进一步分析。 有关如何在关联模型中创建预测查询的信息,请参阅 SQL Server 联机丛书中的关联模型查询示例若要强制项集列表使用新的筛选条件重新显示,可以选择或清除 “显示长名称 ”复选框。
规则
“ 规则 ”选项卡合并了有关项集及其相对值的信息。
由
概率 表示包含项目标组合的数据集中事例的分数。 概率类似于 置信度统计概念,并指示规则的结果发生的可能性。 可以更改此窗格中 最小概率 的值,以筛选显示的规则。
最初看到的 最小概率 值是算法在生成模型时使用的阈值。 模型完成后,无法减小此值,但可以增加该值以仅显示更高的概率项。
重要性 旨在衡量规则的有用性。 一个很常见的规则可能如此无处不在,几乎没有信息价值。 规则越重要,规则就越有价值,用于预测结果。 在 购物篮分析(Excel 表格 AnalysisTools for Excel) 工具中,重要性可以与商品价格相结合,以确定在销售方面可能最有价值的组合。
浏览规则列表
尝试单击列标题( 概率、 重要性和 规则 )以查看数据的变化情况。
使用 “筛选规则 ”选项键入值并专注于目标规则。
例如,如果想要查看那些预测客户有可能会随手套一起购买商品的所有规则,请在文本框中键入“手套”并刷新窗格。
“筛选项集”选项还显示之前使用的筛选器的列表。
若要强制规则列表使用筛选条件重新显示,可以选择或清除 “显示长名称 ”复选框。
使用选项“ 显示” 来控制规则名称的显示方式。
将 “最大行 数”选项的值设置为 100,然后单击“ 复制到 Excel”。
请注意,更改此值对模型中的数据量没有任何影响;它只控制显示列表中的行数。 使用非常大的模型时,此选项非常有用。
依赖关系网络
“ 依赖关系网络 ”选项卡是项间相关性的可视映射。 图形中的每个椭圆(称为 节点)表示属性值对,例如“Vest = Existing”或“Age = 1-30”。 连接椭圆(称为 边缘)的每一行都表示一种关联类型。
探索依赖项网络
单击 “查找 ”按钮,然后使用“ 查找节点 ”对话框键入感兴趣的项。
例如,键入“手套”,然后在窗口中将图表最大化,以便您能更轻松地查看结果。
突出显示包含项的节点,而指向节点的箭头表示连接项的规则。
箭头的方向指示规则的方向。 例如,如果购买手套的人也可能购买背心,箭头将从“手套”节点开始,并在“背心”节点上终止。
若要获取有关此规则的其他统计信息,可以单击“ 规则 ”选项卡并查找包含说明“Glove - Existing”-> “-”Vest - Existing“的规则。
单击并拖动查看器左侧的滑块。
滑块充当规则概率的筛选器。 将滑块调低只显示最强的规则。
单击“ 复制到 Excel ”,将当前窗口的快照复制到 Excel。
无法处理复制到 Excel 中的图形;如果需要交互式网络图,请使用 Visio 中的“查看数据挖掘模型”(数据挖掘加载项)。
有关关联模型的详细信息
可以使用 “浏览” 功能打开和浏览使用Microsoft关联规则算法创建的任何模型。 这包括使用 购物篮分析(适用于 Excel 的表格分析工具) 工具、 表格分析工具 功能区或分析服务中生成模型。
如果使用购物篮分析工具创建关联规则模型,则会自动配置许多高级选项。
如果要设置高级参数或更改最小概率和支持,请使用 “关联向导”(适用于 Excel 的数据挖掘客户端) 向导,或使用 “将模型添加到结构”(Excel 的数据挖掘外接程序) 建模选项生成自己的模型。
项集: 创建模型时,还可以通过向 MINIMUM_PROBABILITY 参数分配值来控制生成的项集数。 “算法参数”对话框中提供了此参数。
规则: Microsoft关联规则算法使用概率值来限制生成的规则数。 可以通过设置参数来控制规则数,
MINIMUM_PROBABILITY也可以MINIMUM _IMPORTANCE控制规则数。
有关配置高级参数的详细信息,请参阅数据挖掘算法(SQL Server 数据挖掘加载项)。