探索序列聚类分析模型(中间数据挖掘教程)

现在,您已构建区域序列聚类模型,可以使用数据挖掘设计器的挖掘模型查看器选项卡中的“Microsoft序列聚类查看器”来进行浏览。 Microsoft 序列群集查看器包含五个选项卡:群集关系图群集配置文件群集特征群集区分状态转换。 有关如何使用此查看器的详细信息,请参阅 使用Microsoft序列分类查看器浏览模型

“群集关系图”选项卡

分类图 ”选项卡以图形方式显示数据库中发现的算法的分类。 图示中的布局表示群集之间的关系,相似的群集会被聚集在一起。 默认情况下,每个节点的阴影表示群集中所有事例的密度:节点的阴影越暗,它所包含的事例越多。 可以更改节点底纹的含义,以便它表示每个群集中属性和状态的支持。

还可以重命名群集,以便更轻松地识别和使用目标群集。 在本教程中,将重命名具有来自太平洋区域的客户比例最高的群集,以及总体情况最多的群集。

注释

重新处理模型时,分配给特定群集的情况可能会更改,具体取决于数据和模型参数。 此外,如果重命名群集,则重新处理挖掘模型时,名称将丢失。

更改用于突出显示群集的属性

  1. 底纹变量 列表中,选择 “模型”。

  2. “状态”列表中选择“循环上限”。

    此关系图会更新以显示每个群集中所选产品的集中度。 具有最深底纹的群集包含自行车帽的最高密度。 可以更改底纹变量以使用任何输入列的任何状态。

  3. 底纹变量 列表中,选择“人口”。

    将阴影变量更改为人口时,图表会更新以按大小比较群集。 具有最深底纹的群集包含的事例比其他群集多。

重命名模型中的节点

  1. 底纹变量 更改为 Region,并将 状态 设置为 Pacific

  2. 突出显示图形中最暗的节点。

  3. 右键单击此群集,然后选择“ 重命名群集”。

  4. 键入名称Pacific Cluster。

  5. 底纹变量 的值更改为 人口

  6. 在更新的图形中,找到最深的群集,该群集应是最大的群集。 如果无法按底纹显示哪个群集最大,请在每个群集上暂停鼠标并查看工具提示,然后选择包含最多情况的群集。

  7. 右键单击此群集,然后选择“ 重命名群集”。 键入新名称。 Largest Cluster

可以从表示群集的节点深入查看每个群集中案例的详细信息。 如果要对分析结果采取措施,例如向客户发送电子邮件,这非常有用。 您还可以浏览结构中包含但未在模型中使用的其他案例属性,例如地区和收入组。 有关从数据挖掘模型钻取到基础案例的详细信息,请参阅钻取查询(数据挖掘)。

钻取到群集关系图中的详细信息

  1. Pacific Cluster右键单击;选择“钻取穿透”,然后选择“模型和结构列”

    此时会打开“ 钻取 ”对话框。 模型中未使用的列,但可用于查询的列以 结构为前缀。

    可以看到,此群集主要包含来自太平洋地区的客户,只有少数来自其他区域的客户。

  2. 单击嵌套列“v Assoc Seq Line Items”中的加号,以查看特定客户订单中项目的顺序。

  3. 关闭“ 钻取 ”对话框。

    注释

    使用 “播放 ”按钮可以重新查询数据;但是,重新查询不会更改显示的数据,除非模型已在后台由一些其他进程动态更新。

返回顶部

“群集配置文件”选项卡

群集配置文件 ”选项卡显示每个群集中的序列。 群集列在 “状态 ”列右侧的各个列中列出。

在查看器中, “模型” 行描述群集中项的总体分布, Model.samples 行包含项序列。 Model.samples 行的每个单元格中的每一行颜色序列都表示群集中随机选择的用户的行为。

单个序列直方图中的每个颜色都表示产品模型。 挖掘图例使用颜色编码和产品模型名称显示产品的序列。 如果已将其他列添加到用于聚类分析的模型中(如区域或收入组),则查看器将包含每个列的附加行,其中显示了每个分类中这些值的分布情况。

查看群集中最常见的序列

  1. 右键单击群集Largest Cluster列中的“模型”行,然后选择“显示图例”。

    “颜色”列包含一个阴影条,指示在序列中找到的项的频率。 每个项都以不同的颜色表示。 “含义”列列出了每种颜色的产品模型名称。 “分布”列告诉你序列中包含此项的事例百分比。

  2. 关闭 矿业传说

  3. 右键单击标题为“人口”的列中的 Model.samples 行,然后选择“显示图例”。

  4. 扫描整个模型中的序列列表.

    采矿图例优先列出最常见的序列,因此可以看到山地轮胎管是许多序列中的第一项。 这意味着客户很可能先把山轮胎管放在购物篮里。

从群集查看器钻取到事例

  1. 在“属性”窗格中向下滚动,直到找到该属性的 Region 行。

    该行包含模型中每个分类的直方图,另外还有一个针对Population的直方图,这表示模型中所用的全部案例集。 直方图是一个具有不同颜色的条形图,其中每个颜色表示一个属性,该属性的彩色节的大小表示该属性的事例百分比。

  2. 比较您重命名为 Pacific ClusterLargest Cluster 的簇的直方图。 每个群集都显示在不同的列中。

    两者看起来都是纯色,但颜色不同。

  3. Region行中,将鼠标悬停在Largest Cluster彩色直方图上。

    工具提示显示各个区域实际案例百分比的值。

  4. 右键单击行Pacific Cluster中的Region彩色直方图,选择“钻取”,然后选择“仅模型列”。

  5. 移动滚动条以查看此群集中的所有客户。

    同样,从钻取到详细信息,可以看到群集主要包含来自太平洋区域的订单,但也包含来自北美和欧洲区域的一些订单。

  6. 关闭钻取对话框。

返回顶部

“群集特征”选项卡

分类特征 ”选项卡通过显示直观地表示所选分类属性值重要性的条形来汇总分类中状态之间的转换。 “ 变量 ”列指示模型对于所选分类或总体而言非常重要:特定值或值之间的关系,称为 转换“值”列提供有关值或转换的更多详细信息,概率列直观地表示此属性或转换的权重。

查看群集的重要属性

  1. “群集 ”下拉列表中,选择 Pacific Cluster

    列表会更新以显示已 Pacific Cluster重命名的群集的特征。 在此分类中,最重要的特征是 Region

  2. 将鼠标悬停在行 Region中的阴影条上。

    值为 Pacific 的概率非常高。 有关如何解释这些值的详细信息,请参阅 Microsoft序列聚类分析算法技术参考

  3. 查看群集的特征列表,直到找到第一个转换行。

  4. 转换行包含 “变量” 列中的文本“转换”,以及 “值 ”列中顺序属性值的一些组合。 序列还可以包含起始点和缺失值。

    例如,假设转换具有值 [Start] -> Road Tire Tube。 这意味着,此群集中的客户经常先将路轮胎管放在购物篮中。 这可能意味着该产品是客户首先寻求的热门产品,或者它可能只表明产品很容易在购买网站上找到。

  5. 滚动浏览列表,直到找到没有 [Start]缺少 的第一个转换。

    例如,假设你找到了过渡现象,旅游轮胎,旅游轮胎管。 这意味着此群集中的客户经常以完全相同的顺序一起购买这些商品。

  6. 将鼠标悬停在此转换的底纹条上。

    此转换的概率显示为百分比。

  7. “群集”下拉列表中,选择“填充”(全部)。

    属性列表会更新,以显示用于创建模型的所有订单的特征。 在此挖掘模型中,区分分类的最重要特征是 Region,其值为 北美

查看这些任务后,你意识到了两件事。 第一个是需要大量数据来获取有意义的组合。 例如,概率最高的序列可能包含 [Start]Missing 状态。

第二个是,对属性 Region有很强的聚类分析效果,这使得很难看到序列组。 因此,你决定创建另一个仅使用序列的模型,并且不包括区域或收入的列。

返回顶部

“分类歧视”选项卡

分类歧视 ”选项卡可帮助你比较两个分类,以确定哪些属性将特定分类与其他分类区分开来。 该选项卡包含四列: 变量群集 1分类 2。 可以选择用作 群集 1群集 2 的任何群集

“变量”列指示属性的名称,该属性可以是列名或列名和单词转换的组合。 “值”列显示属性或转换的确切值。 分类 1分类 2 列中的阴影条表示要比较的分类中属性的强度。 条形图越长,群集就越可能包含具有该属性的事例。

使用“分类歧视”选项卡比较两个分类

  1. “分类歧视”选项卡中,选择“分类 1Pacific Cluster”。

    默认情况下, 群集 2 的选择更改为 “太平洋群集的补充”。

    与所有其他情况区分开 Pacific Cluster 的顶级属性是区域。 区域是聚类分析的强属性,它掩盖了其他属性。 为了避免这种影响,请尝试比较几个较小的群集彼此。 执行此作时,属性列表会更改,并可能包括模型之间的更多转换。

  2. 找到转换行,并将鼠标悬停在阴影条上。

    “值”列中的项可以同时包含状态和转换。 每个项目的底纹表示歧视分数。 若要详细了解不同分数的含义,请参阅序列聚类分析模型的挖掘模型内容(Analysis Services - 数据挖掘)。

返回顶部

“状态转换”选项卡

“状态转换 ”选项卡上,可以选择群集并浏览其状态转换。 如果从群集下拉列表中选择“ 全部” ,则关系图显示整个挖掘模型的状态分布。

图形中的每个节点都表示要尝试分析的序列的状态或可能值。 节点的背景色表示该状态的频率。 线条连接一些状态,指示状态之间的转换。 可以向上或向下移动滑块以更改转换的概率阈值。 数字与某些节点相关联,指示该状态的概率。

浏览“状态转换”选项卡中的关系

  1. 在挖掘模型查看器的 “状态转换 ”选项卡中, Pacific Cluster 从群集列表中选择。 确保已选择 “显示边缘标签 ”选项。

    图形会更新以显示此群集中最常见的转换。

  2. 单击由一行连接到另一个节点的任何节点。

    图形已更新并突出显示相关节点。 行旁边的数值指示转换的概率。

  3. 将滑块向上提升为 “所有链接”,以增加图形中包含的转换数。

  4. 群集中选择“填充”(全部)。

    请注意,加载其他群集时,图形将重置为默认的显示设置,因此滑块控件将重置为中间位置。

  5. 单击图形中最深的节点,该节点应为 Sport-100

    请注意,没有将此产品连接到其他产品的行。

  6. 将滑块向上移动一步,以增加图表中包含的转换数。 暂时不要一路转到 “所有链接 ”。

    通过向图形中添加几个新的转换来更新图形,但不包括 Sport-100 型号。

  7. 将滑块控件一直移动到 “所有链接”。 如果尚未选择,请单击“Sport-100”节点。

    图表将更新,以显示包含 Sport-100 产品的许多变迁。 连接线上箭头的方向指示“Sport-100”项目是否被选择为第一个项目还是第二个项目。

  8. 单击“Touring Tire”节点,将滑块控件移回到中间位置。

    起初,有许多过渡线将 Touring Tire 连接到其他产品,但当你提高概率阈值时,从图形中消除不太可能的过渡,只留下过渡,旅游轮胎巡回轮胎 > 管。 这种过渡意味着,如果客户将旅游轮胎放入购物篮,客户接下来会将旅游轮胎管放入购物篮中的可能性很大。

返回顶部

泛型内容树查看器

无论算法或模型类型如何,此查看器都可用于所有模型。 可从查看器下拉列表获取 MicrosoftGeneric 内容树查看器

内容树是任何挖掘模型的表示形式,作为一系列节点,其中每个节点表示已了解训练数据的知识。 节点可以包含一个模式、一组规则、一组群集或共享某些属性的日期范围的定义。 节点的确切内容因算法和可预测属性而异,但内容的一般表示形式相同。

可以展开每个节点以查看详细信息级别的增加,并将任何节点的内容复制到剪贴板。 有关详细信息,请参阅 使用Microsoft泛型内容树查看器浏览模型

使用泛型内容树查看器查看序列聚类分析模型的详细信息

  1. “挖掘模型查看器 ”选项卡中,单击 查看器 列表,然后选择 Microsoft泛型内容树查看器

  2. “节点标题 ”窗格中,单击 Pacific Cluster (1)

    此节点的名称包含分配给群集的友好名称和基础节点 ID。 可以使用节点 ID 向下钻取模型中的其他详细信息。

  3. 展开群集 1 的第一个子节点,名为 Sequence 级别

    群集的序列级别节点包含有关该群集中包含的状态和转换的详细信息。 可以使用NODE_DISTRIBUTION列中提供的这些详细信息来浏览每个分类或整体模型的序列和状态。

  4. 继续展开节点并在 HTML 查看器窗格中查看详细信息。

有关挖掘模型内容以及如何使用查看器中的详细信息,请参阅 序列聚类分析模型(Analysis Services - 数据挖掘)的挖掘模型内容

返回顶部

课程中的下一个任务

创建相关的序列聚类分析模型(中间数据挖掘教程)

另请参阅

Microsoft序列聚类分析算法
序列聚类分析模型查询示例