数据挖掘笔记(2)-数据规约
来源:互联网 发布:天翼机顶盒没网络连接 编辑:程序博客网 时间:2024/06/06 14:23
数据规约
对于中小型数据集而言,前面提到的数据挖掘准备中的预处理步骤通常足够了。但对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据规约。本次主要说维规约。
3.1 大型数据的维度
数据规约过程的3个基本操作是删除列、删除行、减少列中值的数量。
全面分析下述参数:计算时间、预测/描述精度、数据挖掘模型的描述
3.2 特征规约
“维数灾”
3.2.1 特征选择
算法一般分为两类:特征排列算法和子集选择算法
3.2.2 特征提取
数据挖掘技术始于适当数据表达方式的设计。 把输入集转换为新的规约特征集称为特征提取。
3.3 Relief 算法
Relief算法是一个基于特征加权的特征选择算法,它的灵感来自所谓的基于实例学习。Relief算法的要点是为每个特征计算一个等级分数,表示这个特征区分邻近样本的能力。Relief算法的核心是根据特征值区分邻近样本的能力,来评估特征的质量。
Relief算法比较简单,它完全依赖统计方法。
3.4 特征排列的熵度量
3.5 主成分分析
最流行的大型数据集维规约的统计方法是Karhunen-Loeve(K-L)方法,也叫主成分分析(PCA)。
3.6 值规约
减少已知特征的离散值数目是基于数据规约阶段的第二套技术,即特征离散化技术。
3.7 特征离散化:ChiMerge技术
3.8 案例规约
0 0
- 数据挖掘笔记(2)-数据规约
- 数据挖掘day1——数据规约之特征规约
- 数据挖掘day2——数据规约之Relief算法
- 数据挖掘学习笔记(2)
- 数据挖掘学习笔记2:数据预处理
- 数据挖掘笔记
- 数据挖掘笔记1
- 数据挖掘笔记
- 数据挖掘技术笔记
- 数据挖掘笔记:聚类分析
- <大话数据挖掘>笔记
- 数据挖掘笔记
- 数据挖掘笔记:Review_1
- 数据挖掘笔记:Review_2
- 大数据挖掘笔记
- 数据挖掘导论 笔记
- 数据挖掘笔记
- 数据挖掘笔记一
- 解决电脑上PPT频繁刷新的问题
- 利用OSG实现模拟飞机尾迹-粒子系统
- 破解:前一刻觉得还有好多事要做,突然间就不知道该干什么了
- 命名规则(第一种)
- 数据挖掘笔记(1)-概念、数据准备
- 数据挖掘笔记(2)-数据规约
- 数据挖掘笔记(3)-从数据中学习
- 笔记本wifi热点设置好后,手机连上但不能上网问题
- 笔记本建立wifi热点的实用详细步骤
- 如何将DB2的数据库转换到mySQL中?
- MAC 上搭建lua
- myeclipse查询mysql出来的汉字是乱码
- 在myeclipse中写sql语句的细节问题
- 一个10年程序员职业发展、总结和困境