关联规则笔记

来源:互联网 发布:mac ppt演讲者模式切换 编辑:程序博客网 时间:2024/06/15 03:00

关联规则笔记:
如记录的集合D中有记录A以及记录B。记录A推记录B(关联规则)
支持度:记录A和记录B同时出现占总个数比例。
置信度:记录A中出现记录B的个数比例。
如果挖掘的关联规则满足最小的支持度阈值和最小置信度的阈值,则关联规则是有趣的。
重要性:频繁项集的所有非空子集都必须是频繁的。

Apriori算法思想:
逐层搜索的迭代方法,
首先寻找1-项频繁集的集合,
集合记做L1,
L1用于寻找两项频繁集合L2,
L2用于寻找L3,如此下去,直到不能找K项频繁集合。

Apriori算法迭代的两个阶段:
?1连接步;为找L(k) ,通过将L(k-1)与自身连接产生候选K项集的集合。
2减枝步;根据项的支持度计数去掉非频繁的候选集合,确定频繁集反复迭代直到不能产生满足最小支持度的集合为止。
Apriori重要性质:频繁项集的所有非空子集都必须是频繁的在减枝中的应用就在于,对于候选集只要它不是频繁的,就可以删除掉,这样大大减少数据量。

原创粉丝点击