挖掘频繁模式、关联和相关性:基本概念和方法

来源:互联网 发布:大学数据库课程设计 编辑:程序博客网 时间:2024/04/29 06:39

1基本概念

频繁模式挖掘搜索给定数据集中反复出现的联系。

典型例子:购物篮分析 该过程通过发现顾客放入他们购物篮中的商品之中的关联,分析顾客的购物习惯。
关联规则(association rule) : A => B[support = ?% ; confidence = ?%]
规则的支持度和置信度是规则兴趣度的两种度量。

2 频繁项集、闭项集和关联规则

规则 A=>B 具有支持度 s = support(A=>B) = P(A U B)
规则 A=>B 具有置信度 c = confidence(A=>B) = p (B | A)

频繁项集 : 当项集K 的相对支持度 support(A=>B) 满足 预定义的最小支持度阈值,则项集K是频繁项集。

闭项集:当项集K 不存在超项集 Y 使其具有相同的支持度。则项集K在数据集D中是闭频繁项集。

极大频繁项集(极大项集) : 项集K频繁的,且不存在超项集 Y 在数据集D中是频繁的,则K是极大频繁项集

3 频繁项集挖掘方法

  1. Apriori算法 : 通过限制候选产生发现频繁项集。
    原理: 逐层搜索的迭代方法 利用K项集 去 探索 K+1 项集。没找出一个频繁项集 Li 需要一次数据库的完整扫描

先验规则:频繁项集的所有没空子集一定是频繁的。

举例 由L1 找到 L2

步骤(1) 连接步:

通过L1与自身连接 产生候选K项集的集合。该集合为Ck。 设l1、l2 是L1中的项集,记号 li[j]表示 li的第j项。
为了有效地实现Apriori算法假定事务或项集中的项按字典序排序。

步骤(2) 剪枝步:

阅读全文
0 0
原创粉丝点击