使用 “分析关键影响因素 ”工具,可以选择一个包含目标结果的列,算法确定哪些因素对结果具有最强的影响。
该工具创建新的数据表,用于报告与每个结果关联的因素,并以图形方式显示关系概率。 可以按不同的因素和结果筛选表,以便更深入地浏览结果。
还可以选择一对可能的结果并对其进行比较。 例如,可以比较不同的使用者组,以确定可能的决策因素。
使用分析关键影响因素工具
打开 Excel 数据表。
在 “表工具”中,在 “分析 ”功能区上,单击“ 分析关键影响因素”。
选择分析目标的单个列。
(可选)单击“ 选择要用于分析的列”。 在“ 高级列选择 ”对话框中,选择最有可能包含相关数据的列。 若要提高性能和准确性,请取消选择不重要的模式分析列,例如 ID 或名称。 单击“ 确定 ”关闭“ 高级列选择 ”对话框。
单击 “运行” 。
分析关键影响因素工具对数据进行分析以确定最佳设置,并自动设置所有参数。
如果未检测到模式,向导将创建包含问题说明的新工作表。
如果检测到模式,向导将在显示模式的新工作表上创建报表。 该报表被命名为<列>的关键影响因素。 可以按照以下过程中所述自定义报表。
创建自定义报告
在 “基于关键影响因素的歧视 ”对话框中,从 “值 1 ”和 “值 2” 下拉列表中选择要比较的两个值。 例如,可以将买家与非买家进行比较。
单击“ 添加报表”。
该向导将创建新的工作表,并为每对关键因素比较添加一个表。
完成比较后,单击“ 关闭”。
了解关键影响因素报告
创建数据模型后, “分析关键影响因素 ”工具将创建有助于浏览和比较关键影响因素的报表。
左侧的报表是默认生成的报表。 它显示结果列(依赖变量)的最强预测值。
右侧的报表是可选的,可以通过比较两个特定的结果值来创建。 此报告比较买家和非买家。
请注意,将为创建的每个报表添加新工作表。 可以在创建后移动这些表;我们将它们并排放置以便进行比较。
相对影响
第一个报表中的阴影条指示此属性与结果的关联强度。
条形图的长度指示因子对结果的贡献概率;因此,着色条越长,关联就越强。
礼物
第二个报表中,你比较的目标值列在两列中,相关因素按降序置信度顺序列出。
蓝色条显示导致结果的属性“否”(=未购买)。
红色条显示导致结果的属性“是”(=购买自行车)。
底纹条中的颜色是任意的。 可以通过在 Excel 中设置表格设计的选项来更改这些颜色。
在比较两个值的报表中,第二个报表根据对目标值的影响量对关键影响因素进行排名。
由于所有图表都基于 Excel 表,因此你可以筛选和排序以专注于特定因素或结果。
有关分析关键影响因素工具的详细信息
分析关键影响因素工具分析数据时,它将执行以下作:
创建一个数据结构,用于存储有关数据分布的关键信息。
使用 Microsoft Naïve Bayes 算法创建模型。
创建关于每列数据与指定结果之关联的预测。
使用每个预测的置信度分数来确定产生目标结果最具影响力的因素。
创建描述关键影响因素的报告,按置信度分数排序。
要求
如果目标列包含连续数值,该工具会自动将数值细分为组。 这些分组表示具有相似特征的事例的分类。 但是,数值可能不分为用户友好组。 例如,报表可能包含“<12.85701”等分组,而报表用户通常希望看到使用整数的分组,例如 10-19、20-29 等。
如果要以不同的方式对数值数据进行分组,则必须在创建分析之前按所需方式对数据进行分段。 例如,可以使用 Excel 数据挖掘客户端中的 Relabel 工具在单独的列中创建新的分组标签,然后在分析中仅使用该新列。
相关工具
数据挖掘功能区提供了更高级的工具,包括自定义数据挖掘模型的功能
如果使用 分析关键影响因素 工具保存模型,则可以使用数据挖掘客户端浏览模型并更详细地浏览关系。 有关信息,请参阅 Excel 中的浏览模型(SQL Server 数据挖掘加载项)。 还可以使用 Microsoft Office Visio 创建图表和关系图,以群集或依赖项网络的形式显示关系。 有关详细信息,请参阅 Visio 数据挖掘关系图疑难解答(SQL Server 数据挖掘加载项)。
注释
关闭工作表或终止与 Analysis Services 服务器的连接时,将删除使用表分析工具时创建的模型。 因此,只要连接保持打开状态,就只能浏览模型。 如果关闭连接或关闭工作表,则无法在 Visio 中呈现模型。
有关 分析关键影响因素 工具使用的算法的详细信息,请参阅 SQL Server 联机丛书中的“Microsoft Naïve Bayes 算法”。