数据挖掘中的模式发现（四）模式评估（Pattern Evaluation）

来源：互联网发布：什么是数据编码技术编辑：程序博客网时间：2024/05/22 16:22

Pattern Evaluation简介

模式评估指的是根据某种兴趣度度量，识别代表知识的真正有趣的模式。

我们之前通过support-confidence association rule mining framework得到的强规则不一定是有趣的，所以它不足以进行模式评估，甚至在一些情况下，甚至常用的lift和chi-square measures也没有很好的效果。

这里将介绍模式或规则评估中——兴趣的概念，展示null-invariance的重要性，并比较多个兴趣度测量。

基本概念

什么样的模式是有趣的

一个模式是有趣的(interesting)，则它具有以下几个特征：

易于被人理解
在某种确信度上，对于新的或检验数据是有效的
是潜在有用的
是新颖的

如果一个模式证实了用户寻求证实的某种假设，则它是有趣的。有趣的模式代表知识，可以用于决策。

模式兴趣度的两种度量

客观度量
- 这个度量方法基于所发现模式的结构和关于它们的统计量。
- 对于形如x→y的关联规则，一种客观度量是规则的支持度(support)，表示事务数据库中满足规则的事务所占的百分比。
- 另一种客观度量是置信度(confidence)，它评估所发现的规则的确信程度。
- 关联规则的一般地，每个兴趣度度量都与一个阈值相关联，该阈值可以由用户控制。
主观独立
- 主观兴趣度度量基于用户对数据的期望。
- 这种度量发现模式是有趣的，如果它们是出乎意料的(与用户的期望相矛盾)，或者提供用户可以采取行动的至关重要的信息。在后一种情况下，这样的模式称为可行动的(actionable)。
- 意料之内的模式也可能是有趣的，如果它们证实了用户希望证实的假设，或与用户的预感相似。
其他兴趣度度量包括分类(IF-THEN)规则的准确率和覆盖率。

注意：在这里我多说一句，在我上了PDDM的课程之后，我也没有太明白韩家炜教授说的这些是啥意思。很多概念都不是很清楚，所以建议如果有可能大家可以先去看一些关于数据挖掘的基础课。因为一直搜不到关于模式评估的资料，所以在我明确地知道这些概念之前，我还一直以为Pattern Evaluation是模型评估。