挖掘频繁模式、关联和相关性:基本概念和方法

来源：互联网发布：大学数据库课程设计编辑：程序博客网时间：2024/04/29 06:39

频繁模式挖掘搜索给定数据集中反复出现的联系。

典型例子：购物篮分析 该过程通过发现顾客放入他们购物篮中的商品之中的关联，分析顾客的购物习惯。
关联规则（association rule） ： A => B[support = ?% ; confidence = ?%]
规则的支持度和置信度是规则兴趣度的两种度量。

规则 A=>B 具有支持度 s = support(A=>B) = P(A U B)
规则 A=>B 具有置信度 c = confidence(A=>B) = p (B | A)

频繁项集 : 当项集K 的相对支持度 support(A=>B) 满足预定义的最小支持度阈值，则项集K是频繁项集。

闭项集:当项集K 不存在超项集 Y 使其具有相同的支持度。则项集K在数据集D中是闭频繁项集。

极大频繁项集(极大项集) : 项集K频繁的，且不存在超项集 Y 在数据集D中是频繁的，则K是极大频繁项集

Apriori算法 : 通过限制候选产生发现频繁项集。
原理: 逐层搜索的迭代方法利用K项集去探索 K+1 项集。没找出一个频繁项集 Li 需要一次数据库的完整扫描

先验规则：频繁项集的所有没空子集一定是频繁的。

举例由L1 找到 L2

通过L1与自身连接产生候选K项集的集合。该集合为Ck。设l1、l2 是L1中的项集，记号 li[j]表示 li的第j项。
为了有效地实现Apriori算法假定事务或项集中的项按字典序排序。

阅读全文

0 0