数据挖掘笔记(2)-数据规约

来源：互联网发布：天翼机顶盒没网络连接编辑：程序博客网时间：2024/06/06 14:23

数据规约

　　　　对于中小型数据集而言，前面提到的数据挖掘准备中的预处理步骤通常足够了。但对于真正意义上的大型数据集，在应用数据挖掘技术之前，还需要执行一个中间的、额外的步骤—数据规约。本次主要说维规约。

　　3.1 大型数据的维度

　　　　数据规约过程的3个基本操作是删除列、删除行、减少列中值的数量。

　　　　全面分析下述参数：计算时间、预测/描述精度、数据挖掘模型的描述

　　3.2 特征规约

“维数灾”

　　3.2.1 特征选择

算法一般分为两类：特征排列算法和子集选择算法

3.2.2 特征提取

　　　　数据挖掘技术始于适当数据表达方式的设计。把输入集转换为新的规约特征集称为特征提取。

　　3.3 Relief 算法

　　　　　Relief算法是一个基于特征加权的特征选择算法，它的灵感来自所谓的基于实例学习。Relief算法的要点是为每个特征计算一个等级分数，表示这个特征区分邻近样本的能力。Relief算法的核心是根据特征值区分邻近样本的能力，来评估特征的质量。

　　　　　Relief算法比较简单，它完全依赖统计方法。

　　3.4 特征排列的熵度量

3.5 主成分分析

　　　　　最流行的大型数据集维规约的统计方法是Karhunen-Loeve(K-L)方法，也叫主成分分析(PCA)。

　　3.6 值规约

　　　　　减少已知特征的离散值数目是基于数据规约阶段的第二套技术，即特征离散化技术。

　　3.7 特征离散化：ChiMerge技术

　　3.8 案例规约

0 0