Microsoft 顺序分析和聚类分析

来源:互联网 发布:淘宝短链接怎么生成 编辑:程序博客网 时间:2024/06/05 10:23

Microsoft 顺序分析和聚类分析算法是一种结合了顺序分析和聚类分析的唯一算法。 你可以使用该算法来研究包含可在“顺序”中链接的事件的数据。 该算法可查找最常见的顺序,并且通过执行聚类分析来查找相似的顺序。 下面的示例说明了可以将其作为机器学习的数据捕获的顺序类型,从而提供有关常见问题或业务方案的建议:

  • 用户在导航或浏览网站时生成的点击流或单击路径
  • 列出发生事故(如硬盘故障或服务器死锁)之前的事件的日志
  • 说明客户将商品添加到在线购物车中的顺序的事务记录
  • 根据一段时间内客户或患者的互动来预测服务取消或其他不良结果的记录

该算法在许多方面都类似于 Microsoft 聚类分析算法。 不过, Microsoft 顺序分析和聚类分析算法不是查找包含类似属性的事例的分类,而是查找顺序中包含类似路径的事例的分类。

 

新建数据源,选择2008R2DW数据库


从数据仓库中选择需要分析的表


两个表是一对多的关系


选择顺序分析和聚类分析


Orders表做事例,Items表做嵌套


选择挖掘模型结构,选择可预测值








选择Water Bottle查看数据


颜色最深的是最可能买水壶的群体,反之,颜色越浅是最不可能买水壶的群体


我们可以看到买不买水壶的两种群体和地区有着非常大的关系,比如上图中最想买的人群集中在北美,而在太平洋地区则买的人很少,如果向下拖动的话,还可以看到和收入也有着很大的关系,比如收入高的人群买水壶的人数就少,相反收入低的阶层买水壶的人就多


[开始]->Women'sMountain Shorts表示的就是一个客户来商店,最想放入购物篮的第一个产品就是:Women's Mountain Shorts;[开始]->WaterBottle,也是同样的含义,表示最先放入购物篮的就是水壶。当然还有其它几个比较重要的概率属性:都是在北美、收入是有节制的人群。



上图给出的就是各个产品间的状态转换问题,首先颜色的深浅告诉了我们这个群体的特征,然后就是产品之间转换的可能性,可以通过拖动左侧的滑动条查看,首先与Water Bottle关联的是Sport-100,也就是说卖完水壶之后,最先买的就是Sport-100;然后是卖完Women’s Mountain Shorts,最先买的是Long-Sleeve Logo
原创粉丝点击