增量数据挖掘论文推荐

来源:互联网 发布:mac os x 10.10 cdr 编辑:程序博客网 时间:2024/05/16 14:59

论文背景介绍

  1. 在基于Fp-tree的关联数据挖掘算法出现之前,人们对于增量数据挖掘已经做出了探索,但这些算法均是基于Apriori算法,所以很难应用于基于Fp-tree的增量数据挖掘。
  2. 本文引入了一个高效的增量数据挖掘算法,Cantree,通过实验对比已有的基于Fp-tree的增量数据挖掘算法FELINE和AFPIM,评价出各个算法的优劣以及它们的适用范围。

Fp-tree的改进算法

  1. FELINE:该算法在存储上对Fp-tree进行了压缩,它的构造过程较为费时,适用于interactive mining,即“build once,mine many”.对于min_support_count经常变换的情况较为适合。
  2. AFPIM:该算法适用于增量数据挖掘,因为数据库修改后,每个itemsets的support_count会改变,通过计算改变后数据库中1-itemset的support_count,并做一次重新排序。对排序后的结果通过冒泡排序的方法对原来的Fp-tree做一次更新维护。他的缺点是对于新的满足min_support_count的itemset没有更新进来,所以当加入足够多的transaction后,需要重新构建新的Fp-tree。优点是对经常小范围更新数据库的情况,有一定的优势。

Cantree算法简介

  1. Fp-tree在构造的过程中会首先遍历数据库,得到1-itemset的support_count,并提取其中的频繁项,对筛选出的结果参照support_count的大小降序排序,并依照这个顺序遍历数据库中的每个transactions,构造fp-tree。
  2. Cantree的构造:
    对Fp-tree的构造做了精简,省去了Fp-tree开始对1-itemset的support_count的统计,所以它仅仅需要扫描一次数据库。在构造树的过程中对于每个transaction中的itemsets按照一个固定顺序排序(比如升序排序),然后按照Fp-tree的构造方法遍历数据库。形成的Cantree要比Fp-tree大一些,因为它增加了一些非频繁项。正因为如此,当有新的db‘加入时,它可以直接对transaction进行扫描加入Cantree当中。
  3. Cantree的查找:
    CanTree在查找过程类似于Fp-tree,不同点在于因为Fp-tree中的节点已经按照support_count排序,它的查找过程是自下而上的,而CanTree需要对上下路径分别进行查找,并排除其中小于min_support_count的项。

详细的算法介绍和测评结果见论文:CanTree a tree structure for efficient incremental mining of frequent patterns