数据分析的其中降维方法
来源:互联网 发布:走近科学 知乎 编辑:程序博客网 时间:2024/05/16 15:21
在分析大数据样本集过程中,通常需要对数据集的特征向量进行降维。
降维的目的:去除噪声、对结果影响不大的特征向量,最大限度保持对结果有明显影响的特征向量。保持最小特征子集。
常用方法:
1、缺失率比值。将缺失率高于某个值的列除掉,相当于对数据样本进行清洗。
2、低方差滤波。方差变化较少,表示包含的信息较少,可以去除该列,减少计算量。
3、高相关滤波。相关性高的列之间,信息冗余过大,可以出去冗余列,保持一列即可满足机器学习要求。减少计算量。
4、主成分分析。将n维数据变换到主成分数据集中,计算方差最大的特征向量作为第一个主成分,然后选择与前一个主成分正交且方差最大的特征向量作为第二个主成分,以此类推。这样,前m个特征向量形成的主成分保持了最大的信息量。需要注意,正交时,需要进行归一化处理。
5、反向特征消除。先用n个特征向量进行训练,然后降维n-1个特征向量进行训练,得到n个分类器。找到这n个分类器中错分率最小的所使用的n-1个特征向量作为特征集。不断迭代这一结果,直到错分率超过我们的容忍度。
6、前向特征消除。与反向特征消除类似。先选择1个特征向量。然后选择2个,保留使分类正确率最高的2个特征向量为特征子集。不断迭代,直到分类正确率达到要求的比例。
7、随机森林。对数据集产生很多,每棵树训练一个一部分属性,如果某个属性经常成为最佳分裂属性,那么这个属性就是需要保留的特征向量,信息量大,对分类结果影响很大。
补充说明:
反向特征向消除、前向特征消除,都是比较耗时的。实际过程中,不到万不得已,不建议采用。
扩展阅读:随机森林分类器
随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。
在得到森林之后,当有一个新的输 入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本 为那一类。
- 数据分析的其中降维方法
- 数据分析:常用的降维方法
- 数据分析中的降维方法-PCA
- 数据挖掘的数据分析方法
- DataRow中没有数据把其中列全部赋值为空的方法
- 根据天气接口获取其中的数据
- 数据分析-数据分析方法
- T4MVC的其中解决bug的方法
- 还原数据库的其中一种方法
- ActivityGroup获取其中一个Activity的方法
- 视图切换的其中一种方法
- 双系统卸载其中一个的方法
- 操作GPIO其中的两种方法
- 数据分析的方法有哪些?
- 王金良发现的ESMD数据分析方法
- 数据挖掘的10种分析方法
- 数据挖掘的10种分析方法
- 数据分析的基本流程和方法
- LitePal详解
- eclipse 项目中搜索资源(类方法,文件名,文件中的字符串)(图解)
- 静态变量 static 的定义
- C#多线程编程
- UI实时动态设计技巧
- 数据分析的其中降维方法
- servlert生成session传到jsp,servlert从jsp页面获取session的值
- Android开源框架ImageLoader的完美例子
- 四种mysql存储引擎
- xcode7 + opencv2.4.9
- Hibernate Spatial处理空间数据
- windows 平台 atom编辑器常用快捷键
- 一.Hive的安装部署
- C++第一次实验1-2