创建序列聚类分析挖掘模型结构（中间数据挖掘教程）

创建序列聚类分析挖掘模型的第一步是使用数据挖掘向导基于Microsoft序列聚类分析算法创建新的挖掘结构和挖掘模型。

您将使用与市场篮分析相同的数据源视图，但要添加一个包含sequence标识符的新列。在此方案中，序列表示客户将商品添加到购物篮的顺序。

你还将添加一些列，这些列用于其中一个模型以按人口统计对客户进行分组。

创建序列聚类结构和模型

在 SQL Server Data Tools（SSDT）的解决方案资源管理器中，右键单击 “挖掘结构 ”并选择“ 新建挖掘结构”。
在“ 欢迎使用数据挖掘向导” 页上，单击“ 下一步”。
在 “选择定义方法 ”页上，验证是否选择了 “从现有关系数据库或数据仓库 ”，然后单击“ 下一步”。
在“ 创建数据挖掘结构 ”页上，验证是否选择了“ 使用挖掘模型创建挖掘结构 ”选项。接下来，单击该选项的下拉列表，选择要使用的 数据挖掘技术？，然后选择 Microsoft序列聚类分析。单击 “下一步” 。

此时会显示 “选择数据源视图 ”页。在 “可用数据源视图”下，选择 Orders。

订单视图是与您用于购物篮分析方案的数据源视图相同的。如果尚未创建此数据源视图，请参阅添加包含嵌套表的数据源视图（中间数据挖掘教程）。
单击 “下一步” 。
在“指定表类型”页上，选中 vAssocSeqOrders 表旁边的“案例”复选框，然后选择 vAssocSeqLineItems 表旁边的“嵌套”复选框。单击 “下一步” 。

注释

如果在选中“ 案例 ”或“ 嵌套” 复选框时发生错误，可能是数据源视图中的联接不正确。嵌套表 vAssocSeqLineItems 必须通过多对一连接连接到案例表 vAssocSeqOrders。可以通过右键单击联接行，然后逆向联接方向来编辑关系。有关详细信息，请参阅“创建或编辑关系”对话框（Analysis Services - 多维数据）。
在“ 指定训练数据 ”页上，通过选中复选框来选择要在模型中使用的列，如下所示：
- IncomeGroup 选中“ 输入 ”复选框。
  
  此列包含有关可用于聚类分析的客户的有趣信息。在第一个模型中使用它，然后在第二个模型中忽略它。
- OrderNumber 选中复选框 Key。
  
  此字段将用作事例表的标识符，或 Key。通常，不应将事例表的键字段用作输入，因为该键包含对聚类分析没有用的唯一值。
- 地区选中“ 输入 ”复选框。
  
  此列包含有关可用于聚类分析的客户的有趣信息。在第一个模型中使用它，然后在第二个模型中忽略它。
- LineNumberKey选中“输入”复选框。
  
  LineNumber 字段将用作嵌套表的标识符，或 Sequence Key。嵌套表的键必须始终用于输入。
- 模型选中输入和 可预测 复选框。
验证所选内容是否正确，然后单击“ 下一步”。
在“ 指定列的内容和数据类型 ”页上，验证网格是否包含下表中显示的列、内容类型和数据类型，然后单击“ 下一步”。

表/列内容类型数据类型

收入组离散文本

订单编号密钥文本

区域离散文本

vAssocSeqLineItems

行号键序列长整型

型号离散文本
在 “创建测试集 ”页上，将 要测试的数据百分比 更改为 20，然后单击“ 下一步”。
在“完成向导”页上，键入“挖掘结构名称Sequence Clustering with Region”。
对于 挖掘模型名称，请键入 Sequence Clustering with Region。
选中“ 允许钻取 ”框，然后单击“ 完成”。

表/列	内容类型	数据类型
收入组	离散	文本
订单编号	密钥	文本
区域	离散	文本
vAssocSeqLineItems
行号	键序列	长整型
型号	离散	文本

课程中的下一个任务

处理序列聚类分析模型

另请参阅

数据挖掘设计器
 Microsoft序列聚类分析算法

Last updated on 2017-03-06

通过

创建序列聚类分析挖掘模型结构（中间数据挖掘教程）

创建序列聚类结构和模型

课程中的下一个任务

另请参阅

其他资源