创建序列聚类分析挖掘模型的第一步是使用数据挖掘向导基于Microsoft序列聚类分析算法创建新的挖掘结构和挖掘模型。
您将使用与市场篮分析相同的数据源视图,但要添加一个包含sequence标识符的新列。 在此方案中,序列表示客户将商品添加到购物篮的顺序。
你还将添加一些列,这些列用于其中一个模型以按人口统计对客户进行分组。
创建序列聚类结构和模型
在 SQL Server Data Tools(SSDT)的解决方案资源管理器中,右键单击 “挖掘结构 ”并选择“ 新建挖掘结构”。
在“ 欢迎使用数据挖掘向导” 页上,单击“ 下一步”。
在 “选择定义方法 ”页上,验证是否选择了 “从现有关系数据库或数据仓库 ”,然后单击“ 下一步”。
在“ 创建数据挖掘结构 ”页上,验证是否选择了“ 使用挖掘模型创建挖掘结构 ”选项。 接下来,单击该选项的下拉列表,选择要使用的 数据挖掘技术?,然后选择 Microsoft序列聚类分析。 单击 “下一步” 。
此时会显示 “选择数据源视图 ”页。 在 “可用数据源视图”下,选择
Orders。订单视图是与您用于购物篮分析方案的数据源视图相同的。 如果尚未创建此数据源视图,请参阅添加包含嵌套表的数据源视图(中间数据挖掘教程)。
单击 “下一步” 。
在“指定表类型”页上,选中 vAssocSeqOrders 表旁边的“案例”复选框,然后选择 vAssocSeqLineItems 表旁边的“嵌套”复选框。 单击 “下一步” 。
注释
如果在选中“ 案例 ”或“ 嵌套” 复选框时发生错误,可能是数据源视图中的联接不正确。 嵌套表 vAssocSeqLineItems 必须通过多对一连接连接到案例表 vAssocSeqOrders。 可以通过右键单击联接行,然后逆向联接方向来编辑关系。 有关详细信息,请参阅“创建或编辑关系”对话框(Analysis Services - 多维数据)。
在“ 指定训练数据 ”页上,通过选中复选框来选择要在模型中使用的列,如下所示:
IncomeGroup 选中“ 输入 ”复选框。
此列包含有关可用于聚类分析的客户的有趣信息。 在第一个模型中使用它,然后在第二个模型中忽略它。
OrderNumber 选中复选框
Key。此字段将用作事例表的标识符,或
Key。 通常,不应将事例表的键字段用作输入,因为该键包含对聚类分析没有用的唯一值。地区 选中“ 输入 ”复选框。
此列包含有关可用于聚类分析的客户的有趣信息。 在第一个模型中使用它,然后在第二个模型中忽略它。
LineNumber
Key选中“输入”复选框。LineNumber 字段将用作嵌套表的标识符,或
Sequence Key。 嵌套表的键必须始终用于输入。模型 选中 输入 和 可预测 复选框。
验证所选内容是否正确,然后单击“ 下一步”。
在“ 指定列的内容和数据类型 ”页上,验证网格是否包含下表中显示的列、内容类型和数据类型,然后单击“ 下一步”。
表/列 内容类型 数据类型 收入组 离散 文本 订单编号 密钥 文本 区域 离散 文本 vAssocSeqLineItems 行号 键序列 长整型 型号 离散 文本 在 “创建测试集 ”页上,将 要测试的数据百分比 更改为 20,然后单击“ 下一步”。
在“完成向导”页上,键入“挖掘结构名称
Sequence Clustering with Region”。对于 挖掘模型名称,请键入
Sequence Clustering with Region。选中“ 允许钻取 ”框,然后单击“ 完成”。