挖掘频繁模、关联和相关性(3)

来源:互联网 发布:淘宝为什么月销不增加 编辑:程序博客网 时间:2024/05/31 18:54

模式评估方法

强规则不一定是有趣的

这里写图片描述

上面的例子虽然是强规则,然而,是一种规则误导,因为购买录像的概率是75%,比66%还高。事实上,计算机游戏和录像是负相关的,因为买一种实际上降低了买另一种的可能性。

从关联分析到相关分析

支持度和置信度度量不足以过滤掉无趣的关联规则。为了处理这个问题,可以使用相关性度量来扩充关联规则的支持度-置信度框架。这导致如下形式的相关规则(correlation rule)

AB[support,confidence,correlation]

也就是说,相关规则不仅用支持度和置信度度量,而且还用项集A和B之间的相关性度量。

提升度:项集A的出现独立于项集B的出现,如果P(AB)=P(A)P(B);否则,作为事件,项集A和B是依赖的(dependent)和相关的(correlated).

lift(A,B)=P(AB)P(A)P(B)=P(BA)P(B)=conf(AB)sup(B)

如果上式值小于1,则A的出现与B的出现是负相关的,如果大于1是正相关的,如果等于1,他们之间是独立的。

χ2 进行相关分析

0 0
原创粉丝点击