关联规则算法

来源：互联网发布：java 高级开发招聘编辑：程序博客网时间：2024/05/26 08:43

关联规则是无监督的学习方法，可以帮助商务决策的制定，如分类设计、交叉购物等。

定义：

设I={i1,i2…,im}为所有项目的集合，设A是一个由项目构成的集合，称为项集。事务T包含项集A，当且仅当AT。如果项集A中包含k个项目，则称其为k项集。D为事务数据库，项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度（support）。如果项集的支持度超过用户给定的最小支持度阈值，就称该项集是频繁项集（或大项集）。

关联规则就是形如X→Y的逻辑蕴含关系，其中X @ I，Y @ I 且X∩Y=Φ，如果事务数据库有s%的事务包含X∪Y，（X称作规则的前件，Y是结果）对于关联规则X→Y，存在支持度和信任度。（@为数学符号子集）

支持度：指规则中所出现模式的频率，则称关联规则X→Y在D中的支持度为s%，实际上，可以表示为概率P（XY），即support（X→Y）= P（X∪Y）。

信任度：指蕴含的强度。若X的支持度是support(x)，规则的信任度为即为：support(XY)/support(X)，这是一个条件概率P（Y|X），即confidence（X→Y）= P（Y|X）。

关联规则就是支持度和信任度分别满足用户给定阈值的规则。

关联规则算法挖掘的步骤：

1、根据最小支持度阈值找出数据集D中所有频繁项目集；

2、根据频繁项目集合最小置信度阈值产生所有关联规则。

目前大多数有关关联规则的挖掘问题的研究都是针对步骤1而展开的。

步骤2实现方法：对频繁项目集L中的每一个元素l（即l是L中的某个频繁项目集），产生其所有非空子集，对于l的每个非空子集s，如support(l)/support(s)>=minconfidence，则输出强规则S→l-s。