使用 “浏览”打开分类模型时,模型会显示在交互式决策树查看器中,类似于 Analysis Services 中的Microsoft决策树查看器。 查看器将分类结果显示为图形,旨在突出显示区分一组数据与另一组数据的条件。 还可以向下钻取树的各个子集并检索基础数据。
浏览模型
基于决策树算法的模型有很多有趣的信息要探索。 “浏览”窗口包括以下选项卡和窗格,可帮助你使用图形了解模式和预测结果:
若要试验决策树模型,可以使用示例数据工作簿的“定型数据”(或“源数据”)选项卡上的示例数据,并使用 Bike Buyer 生成决策树模型作为可预测属性。
决策树
此视图旨在帮助你了解和探索导致结果的因素。
决策树图可从左到右读取,如下所示:
矩形(称为 节点)包含数据的子集。 节点上的标签指示该子集的定义特征。
最左侧的节点标记为 “全部”表示完整的数据集。 所有后续节点都表示数据的子集。
决策树包含许多 分支,其中数据根据属性划分成多个集合的节点。
例如,示例模型中的第一个拆分将数据集按年龄划分为三组。
在 “所有 ”节点之后立即拆分最为重要,因为它显示划分此数据集的主要条件。
右侧会发生额外的拆分。 因此,通过分析树的不同段,可以了解哪些属性对购买行为影响最大。
使用此信息,你可能会将市场营销活动集中在可能需要鼓励进行购买的客户上。
浏览决策树
单击“ 所有 ”节点,并查看 挖掘图例。
它显示训练数据集中事例的确切计数,以及结果的细分。
如果在节点上暂停鼠标,可以在工具提示中查看相同的信息。
单击每个节点旁边的加号和减号以展开或折叠树。
还可以使用 “显示级别 ”滑块展开或收缩树。
请注意,某些节点比其他节点更暗?
默认情况下,人口 用作阴影变量,这意味着颜色的强度表示支持最多的节点。
因此,最左侧的节点最暗,因为它包含整个数据集。
将 Background 的值从 “所有事例 ”更改为 “是”。
现在,颜色的强度会告诉你每个节点中有多少客户购买了自行车,这就是你感兴趣的行为。
请注意每个节点中的彩色条形图。 这是一个直方图,用于显示此数据子集内的结果分布。 例如,在示例自行车购买者决策树中,彩色条显示购买自行车的客户(是值)与未购买(无值)的客户的比例。 若要获取确切的值,可以单击节点并查看 挖掘图例。
通过遵循图形,可以查看如何将每个数据子集进一步分解为较小的组,以及哪些属性在预测结果时最有用。
只需查看底纹的强度,就可以专注于几个感兴趣的群体,并获取有关它们的详细数据进行比较。 例如,这些组购买自行车的可能性相当高:
年龄 >= 32 和 < 53, 年收入 >= 26000, 儿童 = 0
总事例数:1150
自行车购买者概率:18%
年龄 >= 32 以及 < 53,年收入 >= 26000,子女数量不等于 0,婚姻状况为 '单身'
总事例数:402
自行车购买者概率:16%
将 背景 值从 “是 ”更改为 “否” ,并查看图形的更改方式。
提示
如果数据可以分为多个系列,则会为要建模的每个数据集生成不同的模型。
在示例数据模型中,只有一个可预测的结果-自行车购买者-但假设你有关于客户是否购买了服务计划的信息,并希望预测这一点。 在这种情况下,你将在单独的列中拥有该数据,并在模型中包括两个可预测属性。
单击“决策树”窗格左上角的直 方图 选项,更改树中直方图中显示的最大状态数。 如果可预测属性具有许多状态,则这非常有用。 状态按从左到右的受欢迎程度顺序显示在直方图中。
还可以使用 “决策树 ”选项卡上的选项,通过放大或缩小关系图的大小来影响树的显示方式,或者调整图形的大小以适应窗口。
使用 默认扩展 设置模型中所有树显示的默认级别数。
选择“ 显示长名称 ”以显示属性的完整名称,包括数据源。 短名称和长名称是相同的,除非你的案例是从不同于每个案例属性的数据源中获取的。
依赖关系网络
“依赖关系网络”视图显示输入属性与模型中的可预测属性之间的连接。
单击并拖动查看器左侧的滑块
在顶部位置显示所有连接。 向下拖动滑块时,查看器中只显示最强的链接。
现在,单击“自行车购买者”节点。
选择节点时,查看器会突出显示特定于节点的依赖项。 在这种情况下,查看器会突出显示有助于预测结果的每个节点。
如果查看器包含多个节点,则可以使用 “查找节点 ”按钮搜索特定节点。 单击 “查找节点 ”将打开 “查找节点 ”对话框,在其中可以使用筛选器搜索并选择特定节点。
查看器底部的图例将颜色代码链接到图形中的依赖项类型。 例如,选择可预测节点时,可预测节点将着色绿松石,并且预测所选节点的节点将着色为橙色。
钻取到基础数据
多种类型的模型支持从模型 深入查看 到基础案件数据的能力。 如果要联系特定细分市场的客户或提取数据来执行进一步分析,这非常有用。
获取案例数据
右键单击包含所需数据的树中的节点,然后选择以下选项之一:
钻取模型。 此选项获取属于所选节点的事例,并将其保存到 Excel 中的表中。 仅返回生成模型时实际使用的数据列。
钻取结构列。 此选项获取属于所选节点的事例,并将其保存到 Excel 中的表中。 在构建模型的基础数据时,你会收到所有可用的信息,即使某个列没有在模型中使用。 例如,你可能已经排除了客户地址和邮政编码,因为这些字段对分析没有用,而是将它们保留在结构中。
返回到 Excel 以查看数据。 浏览查看器运行查询,将数据保存到新工作表中的表,并标记结果。