Microsoft序列聚类分析算法

Microsoft序列聚类分析算法是由Microsoft SQL Server Analysis Services 提供的序列分析算法。 可以使用此算法浏览包含可通过以下路径或 序列链接的事件的数据。 该算法通过对相同序列进行分组或聚类分析来查找最常见的序列。 下面是包含可用于数据挖掘的序列的数据的一些示例,用于提供有关常见问题或业务方案的见解:

  • 用户在浏览或导航网站时生成的点击路径。

  • 记录列出导致某个事件的事件,例如硬盘故障或服务器死锁。

  • 描述客户将商品添加到在线零售商购物车的订单的交易记录。

  • 跟踪客户(或患者)交互随时间推移的记录,以预测服务取消或其他不良结果。

此算法在许多方面与Microsoft聚类分析算法类似。 但是,Microsoft序列聚类算法查找包含类似路径的事例集群,而不是查找包含类似属性的事例集群。

示例:

Adventure Works Cycles 网站收集有关网站用户访问的页面以及访问页面的顺序的信息。 由于公司提供在线订购,客户必须登录到站点。 这为公司提供了每个客户资料的点击信息。 通过使用此数据上的Microsoft序列聚类分析算法,公司可以找到具有类似模式或单击序列的客户组或群集。 然后,公司可以使用这些群集分析用户如何浏览网站、确定哪些页面与特定产品的销售最紧密相关,并预测下一次访问哪些页面的可能性最大。

算法的工作原理

Microsoft序列聚类分析算法是一种混合算法,它将聚类分析技术与 Markov 链分析相结合,以识别聚类及其序列。 Microsoft序列聚类分析算法的标志之一是它使用序列数据。 此数据通常表示数据集中状态之间的一系列事件或转换,例如特定用户的一系列产品购买或 Web 单击。 该算法检查所有转换概率并测量数据集中所有可能的序列之间的差异或距离,以确定哪些序列最适合用作聚类分析的输入。 算法创建候选序列列表后,它将序列信息用作 EM 聚类分析方法的输入。

有关实现的详细说明,请参阅 Microsoft序列聚类分析算法技术参考

序列聚类分析模型所需的数据

准备用于定型序列聚类分析模型的数据时,应了解特定算法的要求,包括需要多少数据以及如何使用数据。

顺序聚类分析模型的要求如下:

  • 单个键列 序列聚类分析模型需要标识记录的键。

  • 序列列 对于序列数据,模型必须具有包含序列 ID 列的嵌套表。 序列 ID 可以是任何可排序的数据类型。 例如,只要列标识序列中的事件,就可以使用网页标识符、整数或文本字符串。 每个序列只允许一个序列标识符,每个模型中只允许一种类型的序列。

  • 可选非序列属性 该算法支持添加与排序无关的其他属性。 这些属性可以包含嵌套列。

例如,在之前引用的 Adventure Works Cycles 网站示例中,序列聚类分析模型可能包括订单信息作为事例表,将每个订单的特定客户人口统计信息作为非序列属性,以及包含客户浏览网站或将项目作为序列信息放入购物车中的序列的嵌套表。

有关序列聚类分析模型支持的内容类型和数据类型的更多详细信息,请参阅 Microsoft序列聚类分析算法技术参考的“要求”部分。

查看序列聚类分析模型

此算法创建的挖掘模型包含数据中最常见序列的说明。 若要浏览模型,可以使用 Microsoft序列分类查看器。 查看序列聚类分析模型时,Analysis Services 会显示包含多个转换的群集。 还可以查看相关的统计信息。 有关详细信息,请参阅 使用Microsoft序列群集查看器浏览模型

若要了解更多详细信息,可以在 Microsoft泛型内容树查看器中浏览模型。 为模型存储的内容包括每个节点中所有值的分布、每个分类的概率以及有关转换的详细信息。 有关详细信息,请参阅序列聚类分析模型的挖掘模型内容(Analysis Services - 数据挖掘)。

创建预测

训练模型后,结果将存储为一组模式。 可以使用数据中最常见序列的说明来预测新序列的下一个可能步骤。 但是,由于算法包含其他列,因此可以使用生成的模型来标识排序数据和输入之间的关系,这些关系不是连续的。 例如,如果将人口统计数据添加到模型,则可以对特定客户组进行预测。 可以自定义预测查询以返回可变数量的预测,或返回描述性统计信息。

有关如何针对数据挖掘模型创建查询的信息,请参阅 数据挖掘查询。 有关如何对序列聚类分析模型使用查询的示例,请参阅 序列聚类分析模型查询示例

注解

  • 不支持使用预测模型标记语言(PMML)来创建挖掘模型。

  • 支持钻取。

  • 支持使用 OLAP 挖掘模型和创建数据挖掘维度。

另请参阅

数据挖掘算法 (Analysis Services - 数据挖掘)
Microsoft序列聚类分析算法技术参考
序列聚类分析模型查询示例
使用Microsoft序列分类查看器浏览模型