机器学习系列-主成分分析
来源:互联网 发布:mac英文翻译软件 编辑:程序博客网 时间:2024/06/06 03:58
PCA
降维
一些机器学习算法在处理高维数据时,性能会出现明显下降,这就是所谓的“维度灾难”,为此人们开始对算法进行改进。与此同时,对降维的需求催生了降维算法,比如本文要介绍的主成分分析(Principal Component Analysis,PCA)。
在开始本文的主要内容之前,我想先举一个关于降维的例子:
有5个点,坐标如下表所示:
将他们画在图中:
虽然是二维空间中的点,但是这些点的横坐标几乎都是5,只有第4个点的横坐标稍稍有些“不合群”,我们不妨将这0.1(5-4.9)的偏差作为噪声略去,这样所有的点横坐标都相同了。
现在我们从坐标的角度去分析这些点的差异性,就会发现,分析横坐标是没有任何意义的,因为所有的点横坐标都相等。忽略了横坐标,分析这些二维空间上点等同于分析一维数轴上的点,过程简单了许多。这就是一个降维的过程。
主成分分析(PCA)
上述的降维方法其实是将二维的点全部投影到y轴上,但这样有个问题,这种投影方式不能将不同的数据的差异性体现出来(有些文档也称为变异性)。而PCA要做的就是将数据沿方差最大方向投影,数据更易于区分。详细的说就是,所选取的第一个维要尽可能多的捕获数据的差异性,第二个维与前面的维正交,使得与第一个维一起变化的程度最小,并尽可能多的捕获剩余的差异性,然后继续下去。接下来我们详细介绍PCA的原理。
概率论中通过计算数据的协方差矩阵
给定一个
换言之,
两个属性的协方差度量两个属性一起变化的程度。如果
性相同),则协方差就是该属性的方差。如果数据矩阵
前面说过,PCA有一个目标,就是使不同属性之间协同变化的程度最小,在这里体现为要将协方差矩阵对角化,并且对角线上的元素按照从大到小排列。
设原始数据矩阵
现在目标变成了寻找一个矩阵
协方差矩阵
实对称矩阵不同特征值对应的特征向量必然正交。
设特征向量
λ 重数为r ,则必然存在r 个线性无关的特征向量对应于λ ,因此可以将这r 个特征向量单位正交化。
由上面两条可知,一个
则对协方差矩阵
到这里,我们发现我们已经找到了需要的矩阵
主成分分析的优缺点
主成分分析的优点
- 以方差衡量信息的无监督学习,不受样本标签限制。
- 各主成分之间正交,可消除原始数据成分间的相互影响。
- 可减少指标选择的工作量。
- 有一定的降噪效果。
主成分分析的缺点
- 主成分解释其含义往往具有一定的模糊性。
- 贡献率小的主成分往往可能含有对样本差异的重要信息。
- PCA降维属于有损压缩,降维后的数据不如原始数据完整。
- 机器学习系列-主成分分析
- 【机器学习系列】python版PCA(主成分分析)
- 机器学习系列之———主成分分析
- 机器学习系列之独立成分分析
- 机器学习--主成分分析
- 【机器学习】主成分分析
- 机器学习 7 主成分分析
- 【机器学习】主成分分析PCA
- 机器学习11主成分分析
- 【机器学习】主成分分析PCA
- 三 机器学习之主成分分析
- 【机器学习】主成分(PCA)算法分析
- 机器学习系列之——独立成分分析
- 机器学习系列(8):主成分分析(PCA)及白化(ZCA)
- 机器学习算法笔记系列之深入理解主成分分析PCA-原理篇
- 机器学习算法笔记系列之深入理解主成分分析PCA-Python实现篇
- 机器学习算法笔记系列之深入理解主成分分析PCA
- 机器学习中的数学系列:线性判别分析(LDA)& 主成分分析(PCA)
- Javascript:history.go()和history.back()的用法和区别
- mono集群我的库
- 转载 解密蓝牙mesh系列 | 第十篇【认证】【确认值检查(Confirmation Value Check)】【启动配置数据分发】
- 令人拍案叫绝的Wasserstein GAN
- MacOS中Gradle环境配置
- 机器学习系列-主成分分析
- 资源 | 史上最全机器学习笔记
- GPU对决TPU,英伟达能否守住领先地位?
- OC与JS交互之JavaScriptCore
- axios基本用法
- C语言“参数数量可变的函数”
- AI一分钟 |“最抢手”毕业生排名出炉:清华没进前三?支付宝将支持iPhone X刷脸
- C语言有关字符串处理的函数
- 二级购物车的展示(代码篇)