关联规则学习-序列模式挖掘

来源:互联网 发布:一洋电商软件 编辑:程序博客网 时间:2024/05/19 12:17

在关联规则中,把一个用户的一次交易看做一个模式,而在序列模式中,药考虑用户的多次交易。可以表示为<{A,B}{A,C}{D}>。这表示在一段时间内,用户发生了3次交易,第一次购物为A和B,第二次为A和C,第三次为D。序列的顺序很重要,序列<{A,B}{A,C}{D}>和<{A,B}{D}{A,C}>就不相同。可以定义序列的父子关系,如果序列s1 = <a1a2…ar>是序列s2 = <b1b2…bv>的父序列,当且仅当存在1 <= j1 < j2 < … < jr-1 < jr <=v,并且a(i)是b(ji)的子集合。

序列s的数量可以用所有s的父序列出现的次数表示。

序列模式的挖掘同关联模式一样,都是有k-1项得到k项。其中项的数量指序列各个点的长度相加,如果某个商品在序列多个点中出现,则计数多次,比如<{A,B}{D}{A,C}>的长度为5。序列的扩展不同于关联规则。关联规则的两个k-1项,除去最后一个项的k-2项是相同的(项中的商品已经排序,比如字典排序)。序列模式要求s1去掉第一个商品和s2去掉第二个商品的序列完全相同。比如<{a,b}{c}>和<{b}{c,d}>合并得到<{a,b}{c,d}>,<{a}{b}{c}>和<{b}{c,d}>合并得到<{a}{b}{c,d}>。但是<{a,b}{c}>和<{b,c}{d}>不能合并。合并得到的k序列加入候选k序列集合,如果其支持度(所有父序列出现的次数)大于阀值,即为序列模式。

序列挖掘可以引入时间窗,即窗口时间跨度大于阀值的要分割成两个序列。也就是说,一个人很久不买东西,再次购买会是一个新的序列。

原创粉丝点击