使用 “浏览”打开神经网络或逻辑回归模型时,模型会显示在交互式查看器中,类似于 Analysis Services 中的神经网络模型查看器。 查看器可帮助你浏览相关性,并获取有关模型和基础数据中的模式的信息。
浏览模型
基于Microsoft神经网络或逻辑回归算法的模型相似,它们分析数据作为已知输入和输出之间的一组连接。 浏览查看器可帮助你使用以下控件浏览这些连接:
如果要试验此查看器,可以使用 分类向导(Excel 数据挖掘加载项) 向导创建模型,并使用 “高级 ”选项在 “算法参数 ”对话框中将算法更改为Microsoft逻辑回归。
变量
“ 变量 ”窗格按对模型的影响顺序显示输入变量的列表。 使用输入和输出控件筛选模型,影响显示的变量及其顺序。
使用此查看器,可以探索在确定客户更可能属于自行车购买者类别还是非购买者类别方面最重要的因素。
探究变量
在当前筛选条件下,变量窗格最初按照最重要的属性顺序进行排序。 条形图的长度表示因子的强度。
在此示例中,可以看到收入是最具影响力的因素,后跟区域。 另一方面,拥有许多汽车和许多孩子的客户不太可能购买自行车。
在 “变量 ”窗格中,单击 “属性”的列标题。
通过对属性进行排序,可以看到为每个输入列创建的箱。 具有离散值的列(如职业)按字面值进行分箱。
请注意为 年龄 和 收入找到的值范围。
如果任一输入列是数字(即整个数据列是连续数值数据类型),则这些数字将被分成或分类为离散的区间。
对于收入,该列已细分为分组,如 78.4-154.06(为最上层的收入范围)。
如果需要不同的分组,则应使用 Relabel(SQL Server 数据挖掘外接程序) 工具或 Excel 函数在生成模型之前创建新的收入类别。
单击“ 支持是 ”,将图形还原到默认视图。
默认情况下,视图按第一个结果值的 Favors 值进行排序。 可以通过在输出中选择值 1 和值 2 的新值来更改分配给第一列和第二列的结果。
将鼠标悬停在图表顶部的彩色条上。
此时会显示一个工具提示,其中包括 重要性 分数、一对 概率 分数和一对 提升 值。
重要性 在整个数据集中计算,并标识给定所有输入与目标结果最相关的属性。 查看器按重要性分数对图表中的值进行排序。
针对整个数据集的目标结果,为每一组属性值对计算概率。
提升 说明此特定属性值对对于提升一个结果或另一个结果有多有用。
注意:无论鼠标位于一列还是另一列上,工具提示都包含相同的信息。
输入
“ 输入 ”窗格允许你选择一组输入,并将其作为筛选器应用于模型,这使你可以根据训练数据查看这些选择对结果的影响
浏览输入
假设你想要以特定组为目标,并查看影响该组中购买的因素。
在“输入”窗格中,单击“<属性”下的“所有>”单元格,然后选择“年龄”。
对于值,请选择年龄分类中最年轻的一组。
请注意,即使筛选特定年龄组,太平洋区域也接近列表顶部。 这是因为太平洋地区的客户比其他地区的客户购买自行车的可能性要大得多。
由于区域不是可以影响的内容,因此要从考虑中删除此变量并查看其他因素,可以再次更改输入。
在 “输入 ”窗格中,单击 “年龄”下的空单元格,然后选择“ 区域”。
对于值,请选择欧洲。
继续添加输入筛选器以专注于一组特定兴趣。
例如,对于输入属性,请添加 “性别”,然后选择“ 女性 ”作为值。
请注意变量列表如何更改。 现在 ,收入 是预测目标结果中最重要的变量。
应用输入筛选器的顺序不会影响结果。
输出
在“ 输出 ”窗格中,可以选择感兴趣的结果。 神经网络允许你指定任意数量的结果列,尽管添加更多输出会增加模型的复杂性,并且可能需要更长的时间来处理。
若要比较两个输出,必须将其指定为“ 预测 ”或“ 仅预测 ”列。
浏览输出
使用 “输出属性” 列表选择属性。
从值 1 和值 2 列表中选择两个结果。 输出属性的这两种状态将在 “变量 ”窗格中进行比较。
有关神经网络模型的详细信息
查看器中的信息是使用特定于此模型类型的存储过程从服务器检索的:System.Microsoft.AnalysisServices.System.DataMining.NeuralNet.GetAttributeScores。
如果要使用加载项创建具有多个可预测属性的模型,请使用 高级 建模选项。
有关详细信息,请参阅“创建挖掘结构”(SQL Server 数据挖掘外接程序)和“向结构添加模型”(Excel 的数据挖掘加载项)。