关联规则学习

来源:互联网 发布:gta5怎么优化设置 编辑:程序博客网 时间:2024/05/06 23:19

主要的指标包括:支持度support,置信度confidence,提升度lift。对于一个二项规则例如“A→B”,支持度是指A与B同时出现的概率,即P(A B);置信度是B关于A的条件概率,即P(B | A);提升度是B的概率的提升,即P(B | A) / P(B)。

频繁项集:

闭集

极大频繁项集

apriori算法:

  1. fp-growth 为什么是从支持度从小到大分配(想出来好几次都忘了,次哦):
    原因1: 支持度小的相比一定长,这样能很好的分离出闭集,也就是绝对不会产生重复的频繁项集.
    原因2:支持度大的,还分配多的,容易reduce端倾斜,而且分离效果没那么好
    举例: 1234 123 12 :
    从多到少:
    1234  123  12 
    234    23
    34 
    从少到多:
    4321  
    321     321
    21        21       21


0 0
原创粉丝点击