关联规则算法

来源:互联网 发布:java 高级开发 招聘 编辑:程序博客网 时间:2024/05/26 08:43

关联规则是无监督的学习方法,可以帮助商务决策的制定,如分类设计、交叉购物等。

定义:

        设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。事务T包含项集A,当且仅当AT。如果项集A中包含k个项目,则称其为k项集。D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度(support)。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。

关联规则就是形如X→Y的逻辑蕴含关系,其中X @ I,Y @ I 且X∩Y=Φ,如果事务数据库有s%的事务包含X∪Y,(X称作规则的前件,Y是结果)对于关联规则X→Y,存在支持度和信任度。(@为数学符号子集)
 
支持度:指规则中所出现模式的频率,则称关联规则X→Y在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(X→Y)= P(X∪Y)。
 
信任度:指蕴含的强度。若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率P(Y|X),即confidence(X→Y)= P(Y|X)。
关联规则就是支持度和信任度分别满足用户给定阈值的规则。

 

 

关联规则算法挖掘的步骤:

1、根据最小支持度阈值找出数据集D中所有频繁项目集;

2、根据频繁项目集合最小置信度阈值产生所有关联规则。

目前大多数有关关联规则的挖掘问题的研究都是针对步骤1而展开的。

步骤2实现方法:对频繁项目集L中的每一个元素l(即l是L中的某个频繁项目集),产生其所有非空子集,对于l的每个非空子集s,如support(l)/support(s)>=minconfidence,则输出强规则S→l-s。

 

 

 

 

 

 

 

 

 

 

原创粉丝点击