创建序列聚类分析挖掘模型结构(中间数据挖掘教程)

创建序列聚类分析挖掘模型的第一步是使用数据挖掘向导基于Microsoft序列聚类分析算法创建新的挖掘结构和挖掘模型。

您将使用与市场篮分析相同的数据源视图,但要添加一个包含sequence标识符的新列。 在此方案中,序列表示客户将商品添加到购物篮的顺序。

你还将添加一些列,这些列用于其中一个模型以按人口统计对客户进行分组。

创建序列聚类结构和模型

  1. 在 SQL Server Data Tools(SSDT)的解决方案资源管理器中,右键单击 “挖掘结构 ”并选择“ 新建挖掘结构”。

  2. 在“ 欢迎使用数据挖掘向导” 页上,单击“ 下一步”。

  3. “选择定义方法 ”页上,验证是否选择了 “从现有关系数据库或数据仓库 ”,然后单击“ 下一步”。

  4. 在“ 创建数据挖掘结构 ”页上,验证是否选择了“ 使用挖掘模型创建挖掘结构 ”选项。 接下来,单击该选项的下拉列表,选择要使用的 数据挖掘技术?,然后选择 Microsoft序列聚类分析。 单击 “下一步”

    此时会显示 “选择数据源视图 ”页。 在 “可用数据源视图”下,选择 Orders

    订单视图是与您用于购物篮分析方案的数据源视图相同的。 如果尚未创建此数据源视图,请参阅添加包含嵌套表的数据源视图(中间数据挖掘教程)。

  5. 单击 “下一步”

  6. 在“指定表类型”页上,选中 vAssocSeqOrders 表旁边的“案例”复选框,然后选择 vAssocSeqLineItems 表旁边的“嵌套”复选框。 单击 “下一步”

    注释

    如果在选中“ 案例 ”或“ 嵌套” 复选框时发生错误,可能是数据源视图中的联接不正确。 嵌套表 vAssocSeqLineItems 必须通过多对一连接连接到案例表 vAssocSeqOrders。 可以通过右键单击联接行,然后逆向联接方向来编辑关系。 有关详细信息,请参阅“创建或编辑关系”对话框(Analysis Services - 多维数据)。

  7. 在“ 指定训练数据 ”页上,通过选中复选框来选择要在模型中使用的列,如下所示:

    • IncomeGroup 选中“ 输入 ”复选框。

      此列包含有关可用于聚类分析的客户的有趣信息。 在第一个模型中使用它,然后在第二个模型中忽略它。

    • OrderNumber 选中复选框 Key

      此字段将用作事例表的标识符,或 Key。 通常,不应将事例表的键字段用作输入,因为该键包含对聚类分析没有用的唯一值。

    • 地区 选中“ 输入 ”复选框。

      此列包含有关可用于聚类分析的客户的有趣信息。 在第一个模型中使用它,然后在第二个模型中忽略它。

    • LineNumberKey选中“输入”复选框。

      LineNumber 字段将用作嵌套表的标识符,或 Sequence Key。 嵌套表的键必须始终用于输入。

    • 模型 选中 输入可预测 复选框。

    验证所选内容是否正确,然后单击“ 下一步”。

  8. 在“ 指定列的内容和数据类型 ”页上,验证网格是否包含下表中显示的列、内容类型和数据类型,然后单击“ 下一步”。

    表/列 内容类型 数据类型
    收入组 离散 文本
    订单编号 密钥 文本
    区域 离散 文本
    vAssocSeqLineItems
    行号 键序列 长整型
    型号 离散 文本
  9. “创建测试集 ”页上,将 要测试的数据百分比 更改为 20,然后单击“ 下一步”。

  10. “完成向导”页上,键入“挖掘结构名称Sequence Clustering with Region”。

  11. 对于 挖掘模型名称,请键入 Sequence Clustering with Region

  12. 选中“ 允许钻取 ”框,然后单击“ 完成”。

课程中的下一个任务

处理序列聚类分析模型

另请参阅

数据挖掘设计器
Microsoft序列聚类分析算法