使用“示例数据”向导可以轻松地将源数据划分为两组,一个用于生成模型(训练),一个用于测试模型。 此向导还提供用于重新采样数据的选项,以生成一个更好地表示目标的新数据集。
为训练和测试模型创建正确的数据类型是数据挖掘的一个重要部分,但如果没有合适的工具,就可能很繁琐。 该向导执行分层采样以确保训练集和测试集平衡良好。
随机采样和过度采样
. 随机采样是确保用于测试模型的数据能够公正地代表用于创建模型的数据的最佳方式。 可以随机采样存储在 Excel 或外部数据源中的数据
如果使用随机采样选项, 示例数据 向导会自动创建训练和测试数据集,并将其输出到单独的 Excel 工作表中供以后参考。
如果数据存储在 Excel 工作簿中,而不是外部数据源中,则还可以选择使用 过度采样。 使用此选项,可以指定数据中可能稀缺的目标值,向导将收集包含更多目标值的均衡集。 可以指示向导实现目标百分比,或创建一定数量的行。
如果使用过度采样选项, 示例数据 向导将创建一个新工作表,其中包含新平衡的示例数据。
使用示例数据向导
将数据分为训练集和测试集
在 “数据挖掘 ”功能区中,单击“ 示例数据”。
在 “选择源数据 ”页上,指定要分区 的数据 是位于 Excel 范围还是表中,还是位于外部数据源中。
在 “选择采样类型 ”页上,指定是要通过随机采样创建训练数据集和测试数据集,还是通过过度采样创建新的数据集。
注释
如果使用外部数据源,则只有随机采样选项可用。 如果要对外部数据使用过度采样,可以使用 Excel 数据连接将数据导入 Excel 工作簿,然后使用示例数据向导。
设置特定于所选采样方法的选项。
对于随机采样,请指定要用于测试的原始数据的百分比,或者指定要在测试数据集中使用的行总数。
对于过度采样,请选择要强调的列和值。 然后,指定新数据集中的行总数,以及应包含目标值的新数据集中的行的百分比。
过度采样的目标值必须是离散值;不能过度采样连续数值数据。
在 “完成”页上,接受新数据集的默认名称,或键入新名称。
该向导为每个数据集创建新工作表。
Excel 数据挖掘客户端中的大多数向导还提供一个选项,用于将数据随机划分为训练集和测试集。 但是,如果使用向导,数据将保留在同一工作表(或其他数据源)中,有关特定行是测试案例还是训练案例的信息将被内部存储。 相比之下,使用 “示例数据 ”向导时,测试和训练数据将输出到单独的工作表中,以便于参考。
相关选项
在完成向导时,将具有以下选项:
| 选项 | 注释 |
|---|---|
| “选择源数据”对话框 (Excel 数据挖掘客户端) | 选择包含数据的 Excel 区域或表。 如果要使用外部数据,则数据可以是关系数据,但必须包含在 Analysis Services 数据源中。 T |
| 选择采样类型页 (Excel 数据挖掘客户端) | 如果使用外部数据源,则只能使用随机采样选项。 此外,必须使用 “行计数 ”选项指定要在最终数据集中创建的行数。 不能指定源数据的百分比。 |
| 随机采样页 (Excel 数据挖掘客户端) | 可以从源复制行的百分比,也可以复制特定数量的行。 |
| 过度采样页 (Excel 数据挖掘客户端) |
目标状态 从原始数据集中未代表的值列表中选择一个值。 过度采样会增加包含此状态的数据行的比例。 样本大小 选择要提取的行总数。 此值表示最终数据集的大小。 |
其他采样选项
如果此向导中的采样选项不满足你的需求,则可以使用 SQL Server Integration Services (SSIS) 中的采样转换来采样来自多个数据源的行。