机器学习－降维

来源：互联网发布：明源软件北京分公司编辑：程序博客网时间：2024/06/07 14:56

　　　　　　降维方法发分类方法简介

一．概述

数据的维度通常是用来表示其特征属性的，研究其目的是为了进行特征提取和特征选择；
　　特征选择：选择重要的子集，删除其与特征；
　　特征提取：由原始特征通过某些方法得到较少的新特征，用于后续分析；我们常用的降维一般都是为了能够进行有效特征提取而服务的．
降维的目的（作用）：
　　　　　　１．降低数据在时间和空间上的复杂度
　　　　　　２．节省　提取不必要特征的开销
　　　　　　３．去掉数据集中所不必要的噪声
　　　　　　４．增强模型的鲁棒性
　　　　　　５．更好的提取数据并进行分析
　　　　　　６．低纬度有利于进行可视化
　　　注：这些作用将在下面讲解是如何实现的

二．线性降维

线性判别分析
多维标定法（ＭＤＳ）
主成分分析
独立成分分析

１．主成分分析

概述：
　　　PCA是一种较为常用的线性降维技术，其思想是利用某种线性投影（其实如何找到一种好的投影就是我们最终的优化目标）　将Ｎ维特征映射到Ｋ（Ｋ＜Ｎ）维上，这Ｋ维是全新的正交特征。这Ｋ维特征称为主元，是重新构造出来的特征。在PCA中，数据从原来的坐标系转换到新的坐标系下，新的坐标系的选择与数据本身是密切相关的。其中，一般来说第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向，依次类推，我们可以取到这样的个坐标轴。
　　　这么做的效果其实，一方面是为了通过舍弃一部分不是很重要的数据，以此来降低特征提取烦人难度，同时也能够是样本的数据密度增大（好比在需要判断西瓜的颜色．根茎等来判断西瓜的好坏，现在只需要判断颜色就好了），另一方面，当数据受到噪声的影响是，最小的特征值所对应的特征向量往往是与噪声有关的，易受其告饶，所以将这部分特征舍弃之后，将更加稳定．
　　　那么在采取线性投影时，我们的依据是什么，或者说是通过这种投影所要达到的目的：
　　　　　　１．每一个主成分都是原始特征的线性组合
　　　　　　２．个主成分之间满足互不相关
　　
　　　　　　
　　　　　　
具体实现（理论推导）：
　　
　　通过上面的分析．其实我们对ＰＣＡ做总结，就是通过对原始数据进行线性变换，得到新的数据，但是这种线性变换是无穷多的，我们如何选择，其实对线性变换的限制我们上面就已经说明了：
　　　　　１．新数据之间互不相关
　　　　　２．新数据之间的方差尽量大

所以从对数据的最大可分性（方差进；尽量大）来进行分析有：
　　　这里写图片描述

最后我们对上述ＰＣＡ算法做个总结就是：
　　　　　　　　　　这里写图片描述
　　引申问题：　如何确实变换后的维数　即主成分个数Ｋ
　　　　　　一般情况下，Ｋ是可以有人工指定的，当需要可视化时常设置为２或者３；还可以通过设置阀值ｔ来确定最小的Ｋ：

阅读全文

0 1