增量数据挖掘论文推荐

来源：互联网发布：mac os x 10.10 cdr 编辑：程序博客网时间：2024/05/16 14:59

论文背景介绍

在基于Fp-tree的关联数据挖掘算法出现之前，人们对于增量数据挖掘已经做出了探索，但这些算法均是基于Apriori算法，所以很难应用于基于Fp-tree的增量数据挖掘。
本文引入了一个高效的增量数据挖掘算法，Cantree，通过实验对比已有的基于Fp-tree的增量数据挖掘算法FELINE和AFPIM，评价出各个算法的优劣以及它们的适用范围。

FELINE：该算法在存储上对Fp-tree进行了压缩，它的构造过程较为费时，适用于interactive mining，即“build once,mine many”.对于min_support_count经常变换的情况较为适合。
AFPIM：该算法适用于增量数据挖掘，因为数据库修改后，每个itemsets的support_count会改变，通过计算改变后数据库中1-itemset的support_count，并做一次重新排序。对排序后的结果通过冒泡排序的方法对原来的Fp-tree做一次更新维护。他的缺点是对于新的满足min_support_count的itemset没有更新进来，所以当加入足够多的transaction后，需要重新构建新的Fp-tree。优点是对经常小范围更新数据库的情况，有一定的优势。

Fp-tree在构造的过程中会首先遍历数据库，得到1-itemset的support_count，并提取其中的频繁项，对筛选出的结果参照support_count的大小降序排序，并依照这个顺序遍历数据库中的每个transactions，构造fp-tree。
Cantree的构造：
对Fp-tree的构造做了精简，省去了Fp-tree开始对1-itemset的support_count的统计，所以它仅仅需要扫描一次数据库。在构造树的过程中对于每个transaction中的itemsets按照一个固定顺序排序（比如升序排序），然后按照Fp-tree的构造方法遍历数据库。形成的Cantree要比Fp-tree大一些，因为它增加了一些非频繁项。正因为如此，当有新的db‘加入时，它可以直接对transaction进行扫描加入Cantree当中。
Cantree的查找：
CanTree在查找过程类似于Fp-tree，不同点在于因为Fp-tree中的节点已经按照support_count排序，它的查找过程是自下而上的，而CanTree需要对上下路径分别进行查找，并排除其中小于min_support_count的项。