数据分析的其中降维方法

来源：互联网发布：走近科学知乎编辑：程序博客网时间：2024/05/16 15:21

在分析大数据样本集过程中，通常需要对数据集的特征向量进行降维。

降维的目的：去除噪声、对结果影响不大的特征向量，最大限度保持对结果有明显影响的特征向量。保持最小特征子集。

常用方法：

1、缺失率比值。将缺失率高于某个值的列除掉，相当于对数据样本进行清洗。

2、低方差滤波。方差变化较少，表示包含的信息较少，可以去除该列，减少计算量。

3、高相关滤波。相关性高的列之间，信息冗余过大，可以出去冗余列，保持一列即可满足机器学习要求。减少计算量。

4、主成分分析。将n维数据变换到主成分数据集中，计算方差最大的特征向量作为第一个主成分，然后选择与前一个主成分正交且方差最大的特征向量作为第二个主成分，以此类推。这样，前m个特征向量形成的主成分保持了最大的信息量。需要注意，正交时，需要进行归一化处理。

5、反向特征消除。先用n个特征向量进行训练，然后降维n-1个特征向量进行训练，得到n个分类器。找到这n个分类器中错分率最小的所使用的n-1个特征向量作为特征集。不断迭代这一结果，直到错分率超过我们的容忍度。

6、前向特征消除。与反向特征消除类似。先选择1个特征向量。然后选择2个，保留使分类正确率最高的2个特征向量为特征子集。不断迭代，直到分类正确率达到要求的比例。

7、随机森林。对数据集产生很多，每棵树训练一个一部分属性，如果某个属性经常成为最佳分裂属性，那么这个属性就是需要保留的特征向量，信息量大，对分类结果影响很大。

补充说明：

反向特征向消除、前向特征消除，都是比较耗时的。实际过程中，不到万不得已，不建议采用。

扩展阅读：随机森林分类器

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。

在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

0 0