数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)
来源:互联网 发布:什么是数据编码技术 编辑:程序博客网 时间:2024/05/22 16:22
Pattern Evaluation简介
模式评估指的是根据某种兴趣度度量,识别代表知识的真正有趣的模式。
我们之前通过support-confidence association rule mining framework得到的强规则不一定是有趣的,所以它不足以进行模式评估,甚至在一些情况下,甚至常用的lift和chi-square measures也没有很好的效果。
这里将介绍模式或规则评估中——兴趣的概念,展示null-invariance的重要性,并比较多个兴趣度测量。
基本概念
什么样的模式是有趣的
一个模式是有趣的(interesting),则它具有以下几个特征:
- 易于被人理解
- 在某种确信度上,对于新的或检验数据是有效的
- 是潜在有用的
- 是新颖的
如果一个模式证实了用户寻求证实的某种假设,则它是有趣的。有趣的模式代表知识,可以用于决策。
模式兴趣度的两种度量
- 客观度量
- 这个度量方法基于所发现模式的结构和关于它们的统计量。
- 对于形如
x→y 的关联规则,一种客观度量是规则的支持度(support),表示事务数据库中满足规则的事务所占的百分比。 - 另一种客观度量是置信度(confidence),它评估所发现的规则的确信程度。
- 关联规则的一般地,每个兴趣度度量都与一个阈值相关联,该阈值可以由用户控制。
- 主观独立
- 主观兴趣度度量基于用户对数据的期望。
- 这种度量发现模式是有趣的,如果它们是出乎意料的(与用户的期望相矛盾),或者提供用户可以采取行动的至关重要的信息。在后一种情况下,这样的模式称为可行动的(actionable)。
- 意料之内的模式也可能是有趣的,如果它们证实了用户希望证实的假设,或与用户的预感相似。
- 其他兴趣度度量包括分类(IF-THEN)规则的准确率和覆盖率。
注意:在这里我多说一句,在我上了PDDM的课程之后,我也没有太明白韩家炜教授说的这些是啥意思。很多概念都不是很清楚,所以建议如果有可能大家可以先去看一些关于数据挖掘的基础课。因为一直搜不到关于模式评估的资料,所以在我明确地知道这些概念之前,我还一直以为Pattern Evaluation是模型评估。
支持置信框架的局限性
如果仅仅依靠支持置信框架得出的关联规则,我们就不能轻易地得出一个确切的结论。这就是支持置信框架的局限性。
Lift和Chi-Square Measures
Lift
Lift 是用于判断事件的独立与相关性的,在一定程度上非常类似概率论中证明两个事件独立性的方法。其具体定义如下:
Lift(B,C)=1 : B 和 C 是独立的>1 : 正相关<1 : 负相关
例子:
Chi-Square Measures
在数学符号里,chi表示为
明显的,
Null Invariance Measures
Null transaction ¬A∩¬B
Lift和Chi-Square Measures具有一定的局限性,让我们来举个例子。
所以我们可以猜测,B和C应该不太可能同时发生。
但是呢,我们通过Lift和Chi-Square Measures得出的结论又与我们的常识相违背。这就是它们有局限的情况。
Null Invariance
Null Invariance的意思是,值不随着null-transactions的改变而改变。
这几张图都是PPT,上面的例子清晰易懂。
Imbalanced Ratio
不平衡比
- 数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)
- 数据挖掘中的模式发现(六)挖掘序列模式
- 数据挖掘中的模式发现(八)轨迹模式挖掘、空间模式挖掘
- 数据挖掘中的模式发现(二)Apriori算法
- 数据挖掘中的模式发现(三)FpGrowth算法
- 数据挖掘中的模式发现(五)挖掘多样频繁模式
- 数据挖掘中的模式发现(一)频繁项集、频繁闭项集、最大频繁项集
- 数据挖掘中的模式发现(七)GSP算法、SPADE算法、PrefixSpan算法
- 频繁模式挖掘(Frequent Pattern Mining)
- Web使用挖掘:web数据使用模式的发现与应用(译)(1)
- 四、代理模式(Proxy Pattern)
- 频繁模式挖掘的模式评估方法
- 设计模式(四)代理模式(Proxy Pattern)
- 设计模式之四 观察者模式(Observer Pattern)
- 设计模式之四:外观模式(Facade Pattern)
- 设计模式(四)The Factory Pattern 工厂模式
- 设计模式学习(四) -- 单例模式 Singleton Pattern
- 【四】设计模式——适配器模式(Adapter Pattern)
- mysql主从同步
- The tech of Pixar Part2
- 纯净centOs 安装sentry
- Java的正则表达式
- 狼行千里吃肉,马行千里吃草(我读了5遍,震撼了!)
- 数据挖掘中的模式发现(四)模式评估(Pattern Evaluation)
- iOS屏幕适配
- [POJ2396]Budget(有源汇有上下界的可行流)
- hadoop介绍内容很详细值得参考学习
- Enhanced object detection via fusion with prior beleefs from image classification
- iOS APNS 问题大全
- 世界上最棒的十个思维,简直了。。。
- 蓝桥-算法-万能搜索
- LEETCODE--Assign Cookies