数据挖掘之关联分析四(连续属性处理)
来源:互联网 发布:网络发短信不显示号码 编辑:程序博客网 时间:2024/05/22 00:34
处理连续属性
挖掘连续属性可能揭示数据的内在联系,包含连续属性的关联规则通常称作量化关联规则(quantitative association rule)。
主要讨论三种对连续数据进行关联分析的方法
1. 基于离散化的方法
2. 基于统计学的方法
3. 非离散化方法
基于离散化方法
离散化是处理连续属性最常用的方法,这种方法将连续属性的邻近值分组,形成有限个区间,例如,年龄属性可以形成如下区间
年龄
离散化可以使用任意技术(如等区间宽度、等频率、等熵、或聚类)实现。
属性离散化一个关键参数时用于划分每个属性的区间。通常这个参数由用户提供,单可能会遇到下面问题
1. 如果区间太宽,则肯能因为缺乏置信度而丢失某些模式。
尽管具有较高的支持度,但是因为较宽的区间导致规则的置信度都小于阈值。
2. 如果区间太窄,则可能因为缺乏支持度而丢失某些模式。
3. 当区间不合适时,可能导致有些规则被分裂成子规则,如果自规则的置信度和支持度都足够高,就可以通过聚类来恢复原来的规则,但是如果置信度或者支持度较低,则不能恢复原来的规则。
处理这些问题的一个方法是通过考虑邻近区间的每个分组,但是也会导致下面的计算问题
1. 计算开销大
2. 提取许多冗余规则,如
其中
基于统计学的方法
量化关联规则可以用来推断总体的统计性质,基于统计学的方法,可以提取如下形式
规则表明年收入超过¥100K并且定期在网上购物的因特网用户的平均年龄为38岁。
规则产生
为了产生基于统计学的量化关联规则,必须制定用于刻画有趣总体段特性的目标属性。保留目标属性,使用上面的方法对数据的其余连续属性和分类属性进行二元化。然后使用已有的算法如Apriori算法从二元化数据中提取频繁项集,每个频繁项集确定一个有趣总体段。使用均值、中位数、方差或绝对偏差等统计量对目标属性在每个段内的分布进行汇总。如在上面的例子中通过对频繁项集
规则确认
仅当由规则覆盖的事务计算的统计量不同于由为被规则覆盖的事务计算的统计量时,该量化规则才是有趣的。例如,仅当不支持规则
考虑量化关联规则
假定
其中
非离散化方法
在一些应用中,令分析者感兴趣的不是连续属性的离散区间之间联系,而是连续属性之间的联系。例如文本文档中词的关联,以相同方式变化的集合可以具有想死的支持度值。
文本挖掘中,分析者更感兴趣的是词之间的联系,如(数据和挖掘)之间的联系,而不是每个词频的区间关联,如(数据
另一种发现词关联的方法称作min-Apriori。和传统的关联分析类似,项集是词的汇集,而支持度用来度量词之间的关联程度。项集的支持度可以根据对应词的规范化频率计算(规范化是为了确保数据在相同的尺度上)。给定文档中词之间的关联通过获取他们之间的规范化频率最小值得到,如
min-Apriori中支持度具有以下性质
1. 支持度随词的规范化频率增加而单调递增。
2. 支持度随包含该词的文档数增加而递增。
3. 支持度具有反单调性。支持度项集随项集中词数的增加而单调递减,考虑一对项集{A, B}和{A, B, C},我们可以得到
数据挖掘之关联分析一(基本概念)
数据挖掘之关联分析二(频繁项集的产生)
数据挖掘之关联分析三(规则的产生)
数据挖掘之关联分析四(连续属性处理)
数据挖掘之关联分析五(序列模式)
数据挖掘之关联分析六(子图模式)
- 数据挖掘之关联分析四(连续属性处理)
- 数据挖掘之关联分析四(连续属性处理)
- 数据挖掘之关联分析
- 数据挖掘之关联分析
- 数据挖掘之关联分析一(基本概念)
- 数据挖掘之关联分析三(规则的产生)
- 数据挖掘之关联分析五(序列模式)
- 数据挖掘之关联分析六(子图模式)
- 数据挖掘之关联分析七(非频繁模式)
- 数据挖掘之关联分析一(基本概念)
- 数据挖掘之关联分析三(规则的产生)
- 数据挖掘之关联分析五(序列模式)
- 数据挖掘之关联分析六(子图模式)
- 数据挖掘之关联分析七(非频繁模式)
- 数据挖掘之关联分析的基本概念
- 【数据挖掘】关联分析之Apriori
- 数据挖掘技术之关联分析
- 数据挖掘 关联分析
- GDOI2016模拟8.18总结
- unity3d 关于游戏暂停
- C语言实现直接插入排序,冒泡排序以及二分查找(巩固理解记忆)
- HDU1845Jimmy’s Assignment(无向图,最大匹配)
- C# WPF 动态添加窗体
- 数据挖掘之关联分析四(连续属性处理)
- python 使用pymsql连接数据库
- 检查服务器的pid文件,如果文件不存在或pid对应的进程已死重启服务器
- 【LeetCode】2_Add Two Numbers
- Java深度历险(二)Java类的加载、链接和初始化
- UITableView
- 在华睿模块内实现UDP收发数据
- Mac自带Python版本升级
- 【分享】[乙女类]失忆症AMNESIA和LATER+Crowd【PSP汉化+日文版】[带全开存档+图文攻略+模拟器]