Apriori 算法学习

来源：互联网发布：app用户数据分析维度编辑：程序博客网时间：2024/06/06 04:49

近来小看关联分析的Apriori算法，参考《数据挖掘:概念与技术3rd》,作此篇。

1. 基础概念

-支持度（Support）：support( A => B ) = P(A U B)-置信度（Confidence）： confidence(A => B ) = P( B | A )-项集(itemset) :　包含K个项的项集成为K项集-频繁项集(frequent itemset) : 如果项集 I 满足最小支持度阈值, 则 I 是频繁项集

2. 算法简介

2.1 简介

Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。
首先，通过扫描事务记录，找出所有的频繁1项集，记做L1，利用L1找频繁2项集L2，使用L2找L3，如此下去，直到不能再找到任何频繁k项集。
为了提高频繁项集逐层产生的效率,一种称为先验性质(Apriori property)的重要性质用于压缩搜索空间.
先验性质:频繁项集的所有非空子集也一定是频繁的.

2.2 流程

考察使用L_k-1找出L_k,主要有连接步和剪枝步:
(1)连接步: 为了找出L_k, 通过将L_k-1与自身连接产生候选K项集的集合, 记为C_k. 记l_i[j]表示l_i的第j项. Apriori算法假定事务和项集中的项按字典顺序排序. 对于(k-1)项集l_i, 使得l_i[1] < l_i[2] < … < l_i[k-1]. 如果l_k-1的前(k-2)个项相同, 则它是可连接的. 连接L_k-1 连接 L_k-1, 结果{l₁[1], l₁[2], …, l₁[k-1], l₂[k-1]}.
(2)剪枝步: C_k是L_k的超集, 即C_k的成员可以是也可以不是频繁的. 任何非频繁的(k-1)项集都不是频繁k项集的子集. 因此, 如果一个候选k项集的(k-1)项子集不在L_k-1中,则该候选也不可能是频繁的, 从而从C_k中删除.