预测计算器工具可帮助你创建可用于分析新数据的记分卡,并评估选项或风险。 例如,如果你有有关客户的历史和人口统计数据, 预测计算器 工具可以帮助你完成两个关键任务:
生成对人口统计、购买行为和各种其他因素的基础分析。
创建一个工作记分卡,可以帮助你评估成员并对新产品或服务提出建议。
该向导还会创建一个工作表来存储所有基础计算,以便你可以与模型交互,并查看不同的输入值如何影响最终分数。
如果选择,向导还可以创建可用于脱机评分的工作表的打印版本。 无法像与联机 Excel 工作簿一样与模型交互,但打印版本提供输入值和计算最终分数所需的所有计算。
使用预测计算器工具
打开包含要分析的数据的 Excel 表。
单击“分析”选项卡上的“预测计算器”。
在“ 预测计算器 ”对话框中,对于“目标”,选择要预测的列,例如购买行为。
指定目标值。 如果值为数值,请使用选项 In 范围,然后键入所需范围的最小值和最大值。 如果该值是离散的,请选择“ 精确 ”选项,然后从下拉列表中选择该值。
单击“ 选择要用于分析的列”。
在“ 高级列选择 ”对话框中,选择具有有用信息的列。 删除与分析无关的任何列。 单击 “确定” 。
为了避免结果偏斜,还应删除具有重复信息的列。 例如,如果你有一个包含数值数据的“收入”列和一个包含“高”、“中”和“低”标签的收入组列,则不应在同一模型中包括这两列。 相反,可以为每个列创建单独的模型。
在“ 输出选项” 部分中,选择 “作计算器 ”以在 Excel 工作簿中创建分析和记分卡。 选择 “打印机就绪计算器 ”以创建分析,并生成可打印并用于手动评分的报表。
单击 “运行” 。
该工具将创建包含报表和记分卡的新工作表。
要求
预测计算器工具使用Microsoft逻辑回归算法,该算法可以处理离散值,以及离散化和连续数值数据。
了解评分报告
如果选择这两个输出选项,预测计算器将在当前工作簿中创建以下三个新工作表:
包含分析结果的 预测报告,其中包含交互式表和图形,可帮助你试验交互和利润。
交互式 预测计算器 ,可帮助你创建分数。
可打印计算器,其中包含用于评分的说明和系数。
本部分介绍每个报表中的信息以及如何使用各种报表选项。
使用图形的预测报表
第一个预测报表标题为预测计算器报告的<目标状态>的<目标属性>。 它包含派生自分析的因素表,以及帮助你评估特定分析的财务影响的工具。
用于指定成本和利润的表
此报表的第一个工具位于报表的左上角,是一个表,可在其中指定与正确且错误地预测值相关的成本和利润。 计算计算器的最佳分数阈值需要这些成本和利润。
| 条目 | 说明和示例 |
|---|---|
| 假阳性成本 | 假设模型在实际预测错误时正确预测了正结果的成本。 例如,该模型预测客户将购买某物,并据此设计面向该客户的活动。 可以在此处输入与客户沟通相关的费用。 |
| 假负成本 | 假设模型在实际预测错误时正确预测了负数的成本。 例如,该模型可能会预测较旧的客户不太可能购买自行车,但你会发现该模型倾斜,因此你错过了面向较旧客户的机会。 你可能会在这里分配一个错失机会的代价。 |
| 真正的正利润 | 从正确预测积极结果中获利。 例如,如果目标正确的客户,且推广带来了销售结果,则在此处输入每个客户的利润。 |
| 真正的负利润 | 从正确预测负结果中获利。 例如,如果可以正确识别不应成为目标的客户,则可以在此处输入每个客户的广告美元数 X。 |
用于查看最大利润的图表
在表中输入值时,相关图形会自动更新,以显示在给定当前模型的情况下最大化利润的最佳点。 此表右侧的折线图显示各种分数阈值的利润。 根据模型的预测和概率,使用你键入到表中的利润和成本数字来估算利润。
例如,如果在左上角的表格中, “建议阈值”以最大化利润 的单元格显示值 500,则右侧的图表将显示 500 作为折线图的最高点。 此值 500 的含义是,为了最大化利润,应使用挖掘模型中的前 500 条建议(按概率排序)。
表列出每个属性和值的分数
报表左下角的表显示检测到的值的详细细目,以及每个值如何影响结果。 不能更改此表中的值;它们将显示以帮助你了解预测。
例如,下表显示了当目标结果是客户购买自行车时的结果示例。 该表列出模型中使用的每个输入列,无论输入是否影响模型。 如果输入列包含连续数值数据,该表还列出了离散值和离散化值。
相对影响列中的值是概率,表示为百分比。 该单元格被着色以直观展示此值对结果的影响。
| 特征 | 价值 | 相对影响 |
|---|---|---|
| 婚姻状况 | 已婚 | 0 |
| 婚姻状况 | 单身 | 71 |
| 性别 | 女性 | 13 |
| 性别 | 男 | 0 |
可以按如下所示解释这些因素:
结婚不会影响客户购买自行车的可能性。
然而,单身(70%)是客户可能购买自行车的强劲指标。
如果客户是女性,则客户性别仅对预测的自行车购买行为产生边际影响(13%),如果客户是男性,则不会影响预测的自行车购买行为。
累积错误分类成本图表
报表右下角的面积图显示各种分数阈值的累积错误分类成本。 此图表还使用为假阳性、真阳性、假阴性和真阴性输入的成本和利润数字。
与报表右上角的图表不同,该图表侧重于最大化利润,这一图表包含进行错误预测的成本。 此图表在预防等方案中特别有用,其中做出错误决策的成本明显超过正确猜测的成本。
例如,尽管第一个图表表明,以模型预测的前 500 名客户为目标是实现最大利润的方法,但你可以在查看第二个图表后决定,错误定位客户的成本过大,并决定在前 400 个客户处切断市场营销活动。
交互式预测计算器
预测计算器工具创建的第二个工作表标题为用于<目标状态>和目标属性<的预测计算器>。 它是一个交互式工作表,可用于计算单个分数。 由于此工作表使用模型中存储的模式和统计信息,因此可以试验不同的值,并查看它们如何影响预测的分数。 此报表还有两个部分:一个是交互式的,一个是作为参考提供的。
第一个表
可以在表的 “值 ”列中选择或键入新值,以查看更改值如何影响分数。
例如,如果报表包含以下值,则可以将“汽车”的值减少到 1,然后降低到 0,以查看如何影响客户购买行为。 将 “汽车 ”的值更改为 0 时,底部的预测将更改为 TRUE。
| 特征 | 价值 | 相对影响 |
|---|---|---|
| 婚姻状况 | 已婚 | 0 |
| 性别 | 男 | 0 |
| 收入 | 39050 - 71062 | 117 |
| 孩子 | 0 | 157 |
| 教育 | 学士学位 / 单身汉 | 22 |
| 职业 | 技能手册 | 33 |
| 家庭所有者 | 是的 | 8 |
| 汽车 | 2 | 50 |
| 通勤距离 | 0-1 英里 | 99 |
| 区域 | 北美洲 | 0 |
| 年龄 | 37 - 46 | 5 |
| 总计 | 491 | |
| “是”的预测 | 假 |
键入新值时,单元格中显示的分数“预测是”、更改为 TRUE,以及各种属性的 相对影响 分数也会更新。
注释
即使只更改一个值(如汽车数量),其他属性的值和影响也会在执行此作时更改。 这是因为数据挖掘模型经常发现数据之间的复杂关系,并且更改任何一个变量可能会产生不可预见的影响。 因此,建议使用交互式预测计算器来试验不同的值,或浏览挖掘模型以更好地了解交互。 有关详细信息,请参阅 “浏览模型”。
评分明细
下表显示了输入列的每个可能状态的各个分数,以及分数对结果的相对影响。 此表是静态的,仅供参考。
可打印预测计算器
预测计算器工具创建的第三个工作表标题为 PrintablePrediction Calculator,用于<目标属性>的目标状态><。 此记分卡旨在打印出来,以便在离开计算机时手动计算分数。
打印和使用预测计算器生成的评分报告
单击标题为属性>的“可打印预测计算器”的<选项卡。
在 Excel 文件菜单上,选择“ 打印预览”。
更改页面方向、页边距和其他打印选项,直至记分卡按照您想要的方式适应页面。
此记分卡不是动态的,并且未以任何方式连接到模型,因此可以移动列或行以改进格式,而不会影响基础数据。
打印记分卡。
对于每个属性,仅选择一个值。 对于所选值,请在框中放置复选标记,并在 “评分” 列中写入相应的数字。
填写尽可能多的属性以确保准确性。
计算每个属性的分数总和,并在 “总计 ”行中输入该数字。
使用工作表上紧接在 “总计 ”行之后打印的条件,将分数转换为预测结果。
相关工具
Analysis Services 提供了Microsoft逻辑回归算法,用于此类分析。 如果已经熟悉逻辑回归,则可以使用 Excel 数据挖掘客户端 的高级 选项轻松创建逻辑回归模型。 有关详细信息,请参阅高级建模(Excel 数据挖掘外接程序)。 有关逻辑回归模型的选项和参数的详细信息,请参阅 SQL Server 联机丛书中的主题“Microsoft逻辑回归算法”。