数据挖掘学习------------------2-关联规则-1-基本概念

来源:互联网 发布:php域名授权管理系统 编辑:程序博客网 时间:2024/06/06 06:31

2.1关联规则基本概念

1)、背景

关联规则最初提出的动机是针对购物篮分析问题提出的。

(1)购物篮问题:

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。

(2)对应研究:

商场营销时想知道那些商品,顾客可能一次购物时同时购买?

通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯,这就是对购物篮进行分析而得到的关联规则概念。

2)、基本概念

(1)项与项集

概念:①数据库中不可分割的最小单位信息,称为项目,用符号 i 表示。

②项的集合成为项集,用符号 I 表示。

③设:集合I = { i1,i2,..,ik } 项集,I的项目个数为 k ,则集合 I 称为 k-项集。

例如:集合{ 啤酒,尿布,牛奶 }为3-项集

(2)事务

概念: ①k-项集 I = { i1 , i2 , .. ,ik },一次处理该项集用 T 表示,则 T = { t1 , t2 ,.. ,tn }。

②每个 ti 包含的项集都是 I 子集。

例如:如果顾客在商场里同一次购买多种商品{ 啤酒,尿布,牛奶 },这些购物信息在数据库中有唯一的标识,来表示这些商品是同一个顾客同一次购买的,则称该用户的本次购物活动对应一个数据库事物。

(3)项集的频数(支持度计数)

概念: ①项集的事物数称为项集的频数。

(4)关联规则

概念: ①关联规则是形如  X => Y 的蕴含式,其中 X,Y 分别是 I 的真子集,并且 X 交 Y 为空(X∩Y=φ)。

②X 称为规则的前提,Y 称为规则的结果。

③关联规则反映X中的项目出现时,Y中项目也跟着出现的规律。

(5)关联规则的支持度(support)

概念: ①关联规则的支持度是交易集中同时包含X和Y的交易数与所有交易数之比。

②记为support( X => Y ),即support( X => Y ) = support(X∩Y)= P(XY)。

③支持度反映了X和Y中所有项在事务集合中同时出现的频率。

(6)关联规则的置信度(confidence)

概念: ①关联规则的置信度是交易集中包含X和Y的交易数与所有包含X的交易数之比。

②记为confidence( X => Y ),即confidence( X => Y )= support(X∪Y) /  support(X) =  P(Y|X)。

③置信度反映了包含X的事务中出现Y的条件概率。

(7)最小支持度和最小置信度

概念: ①为了达到一定的要求,需要指定规则必须满足的支持度和置信度阀值。

②当support(X => Y ),confidence( X => Y )分别  >=  各自的阀值(min_sup 和 min_conf)时,认为 X => Y 是有趣的。

③min_sup描述了关联规则的最低重要程度,min_conf规定了关联规则必须满足的最低可靠性。

 (8)频繁项集

概念: ①设U = { u1 , u2 , ...uk }为项目的集合,且U ∈ I,U ≠ Φ

②如果项集U的支持度support(U) ≥  min_sup,则称U为频繁项集,否则,U为非频繁项集。

(9)强关联规则

概念: ①support(X => Y ) ≥ min_sup 且 confidence(X => Y ) ≥  min_conf,称关联规则 X => Y  为强关联规则,否则 X => Y  为弱关联规则。

3)、实例

 

①该表为顾客购买记录的数据库D,包含6个事务。

②项集 I = { 网球拍,网球,运动鞋,羽毛球 }。

③考虑关联规则:网球拍  =>  网球。

④事务1,2,3,4,6,包含网球拍,事务1,2,5,6,同时包含网球拍和网球。

⑤支持度support = 3 / 6 = 0.5。

⑥置信度confident = 3 / 5 = 0.6。

⑦若给定最小支持度 α = 0.5,最小置信度 β = 0.5。

⑧结论:对于关联规则网球拍 => 网球是有趣的,认为购买网球拍和购买网球之间存在关联。

4)、分类

(1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型

①布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;

②数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割或直接对原始数据进行处理,当然数值型关联规则中也可以包含种类变量

举例: 性别 = “女”  =>  职业 = “秘书”,是布尔型关联规则

性别 = “女”  =>  avg(收入)=2300,涉及的收入是数值类型,所以是数值型关联规则。

(2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则

①单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的。

②多层的关联规则中,对数据的多层性已经进行了充分的考虑。

举例:IBM台式机 => Sony 打印机,是一个细节数据上的单层关联规则

台式机 => Sony 打印机,是一个较高层次和细节层次之间的多层关联规则。

(3)基于规则中涉及的数据的维数,关联规则可以分为单维和多维的

①单维的关联规则中,只涉及数据的一个维,比如:用户购买的物品。或它是处理单个属性中的一些关系

②多维的关联规则中,要处理的数据将会涉及多个维。或它是处理各属性之间的某些关系。

举例:啤酒 => 尿布,这条规则只涉及用户购买的物品

性别 => "女" => 职业 = “秘书”,这条规则就涉及两个字段的信息,是两个维上的一条关联规则。




阅读全文
0 0
原创粉丝点击