Apriori算法原理
来源:互联网 发布:unity3d 人物模型真人 编辑:程序博客网 时间:2024/06/10 20:47
算法常见:
运用于推荐商品。
关联规则:
简单举例->
市场购物篮分析的结果是一组指定商品之间关系模式的关联规
则。
• 一个典型的规则可以表述为: {花生酱,果冻} –> {面包}
• 这个关联规则用通俗易懂的语言来表达就是:如果购买了花生
酱和果冻,那么也很有可能会购买面包。
支持度和置信度
一个项集或者规则度量法的支持度是指其在数据中出现的频率
置信度是指该规则的预测能力或者准确度的度量
Apriori算法
Apriori原则指的是一个频繁项集的所有子集,也必须是频繁的,
如果{A,B}是频繁的,那么{A}和{B}都必须是频繁的
根据定义,支持度表示一个项集出现在数据中的频率,因此,如果知道{A}
不满足所期望的支持度,那么就没必要考虑{A,B}或者任何满足包含{A}的项集
,这些项集绝对不可能是频繁的。
图表理解
BE出现的支持度为3/4 ,
那么在BE出现的支持度下再出现C的概率结果为:
p(C)=p(BEC)/P(BE)=1/2 / 3/4=2/3 也就是置信度p(BE->C)=2/3
实现步骤:
Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法Apriori使用一种称作逐层搜索的迭代方法,“K-1项集”用于搜索“K项集”。
首先,找出频繁“1项集”的集合,该集合记作L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3。如此下去,直到不能找到“K项集”。找每个Lk都需要一次数据库扫描。
核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前k-2项相同,并按照字典顺序连接。剪枝步,是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某
个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK中删除。
简单的讲,
1、发现频繁项集,过程为(1)扫描(2)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集 重复步骤(1)~(5)直到不能发现更大的频集
2、产生关联规则,过程为:根据前面提到的置信度的定义,关联规则的产生如下:
(1)对于每个频繁项集L,产生L的所有非空子集;
(2)对于L的每个非空子集S,如果
P(L)/P(S)≧min_conf
则输出规则“SàL-S”
1 0
- Apriori算法原理总结
- Apriori算法原理
- Apriori算法原理及实现
- Apriori算法
- Apriori算法
- Apriori算法
- apriori 算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- Apriori算法
- 监听器相关知识汇总
- Spring Boot不允许加载iframe问题解决
- Tomcat9 配置HTTPS连接
- Add Two Numbers
- FTP相关知识
- Apriori算法原理
- Struts的类型转换器
- cookie 和session 的区别详解(2017.4.24)
- 前端学HTTP之Web主机托管
- Currency Translation in Bex Query Variable 1
- mysql在主主复制中遇到自增主键冲突的解决办法
- 继承映射------union-subclass元素的继承映射
- 洞洞板焊接
- 第五次实验报告