数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)

来源:互联网 发布:什么是数据编码技术 编辑:程序博客网 时间:2024/05/22 16:22

Pattern Evaluation简介

模式评估指的是根据某种兴趣度度量,识别代表知识的真正有趣的模式。

我们之前通过support-confidence association rule mining framework得到的强规则不一定是有趣的,所以它不足以进行模式评估,甚至在一些情况下,甚至常用的lift和chi-square measures也没有很好的效果。

这里将介绍模式或规则评估中——兴趣的概念,展示null-invariance的重要性,并比较多个兴趣度测量。

基本概念

什么样的模式是有趣的

一个模式是有趣的(interesting),则它具有以下几个特征:

  • 易于被人理解
  • 在某种确信度上,对于新的或检验数据是有效的
  • 是潜在有用的
  • 是新颖的

如果一个模式证实了用户寻求证实的某种假设,则它是有趣的。有趣的模式代表知识,可以用于决策。

模式兴趣度的两种度量

  • 客观度量
    • 这个度量方法基于所发现模式的结构和关于它们的统计量。
    • 对于形如xy的关联规则,一种客观度量是规则的支持度(support),表示事务数据库中满足规则的事务所占的百分比。
    • 另一种客观度量是置信度(confidence),它评估所发现的规则的确信程度。
    • 关联规则的一般地,每个兴趣度度量都与一个阈值相关联,该阈值可以由用户控制。
  • 主观独立
    • 主观兴趣度度量基于用户对数据的期望。
    • 这种度量发现模式是有趣的,如果它们是出乎意料的(与用户的期望相矛盾),或者提供用户可以采取行动的至关重要的信息。在后一种情况下,这样的模式称为可行动的(actionable)。
    • 意料之内的模式也可能是有趣的,如果它们证实了用户希望证实的假设,或与用户的预感相似。
  • 其他兴趣度度量包括分类(IF-THEN)规则的准确率和覆盖率。

注意:在这里我多说一句,在我上了PDDM的课程之后,我也没有太明白韩家炜教授说的这些是啥意思。很多概念都不是很清楚,所以建议如果有可能大家可以先去看一些关于数据挖掘的基础课。因为一直搜不到关于模式评估的资料,所以在我明确地知道这些概念之前,我还一直以为Pattern Evaluation是模型评估。

支持置信框架的局限性

图一

playbasketballeatcereal [40%, 66.7%]
¬playbasketballeatcereal [35%, 87.5%]

如果仅仅依靠支持置信框架得出的关联规则,我们就不能轻易地得出一个确切的结论。这就是支持置信框架的局限性。

Lift和Chi-Square Measures

Lift

Lift 是用于判断事件的独立与相关性的,在一定程度上非常类似概率论中证明两个事件独立性的方法。其具体定义如下:

lift(B,C)=c(BC)s(C)=s(BC)s(B)×s(C)

  • Lift(B,C)=1: B 和 C 是独立的
  • >1: 正相关
  • <1: 负相关

例子:
图2
图3

Chi-Square Measures

在数学符号里,chi表示为χ,大家可以用MathJax轻松地得到它。

χ2=ObservedExpectedExpected

图4

χ2=(400450)2400+(350300)2350+(200150)2200+(50100)250=75.89

明显的,χ2大于0,所以他们不是独立的。那么因为450<400,所以B和C是负相关的。

Null Invariance Measures

Null transaction ¬A¬B

Lift和Chi-Square Measures具有一定的局限性,让我们来举个例子。

图5

BC(100)B¬C(1000)¬BC(1000)少得多,而它们又远少于¬B¬C(100000)

所以我们可以猜测,B和C应该不太可能同时发生。

但是呢,我们通过Lift和Chi-Square Measures得出的结论又与我们的常识相违背。这就是它们有局限的情况。

Null Invariance

Null Invariance的意思是,值不随着null-transactions的改变而改变。

图6
图7

这几张图都是PPT,上面的例子清晰易懂。

Imbalanced Ratio

不平衡比

这里写图片描述

这里写图片描述

0 0
原创粉丝点击