PCA方法简介

来源:互联网 发布:火车头软件下载 编辑:程序博客网 时间:2024/06/08 00:26
PCA方法简介
1. 什么是PCA? 
PCA是一种分析高维数据的方法,能够产生一组新基,当数据在新基上投影 
时能够有效的识别数据之间的相似性和主要的差异。另外,PCA的一个主要 
优点是数据的信息主要保存在前几个主成分中,那么,可以把高维数据进行 
降维处理而不会丢掉很多信息。 

2. PCA的思路 
从数学的角度,主成分分析即构造原变量的一系列线性组合,使各线性组合在 
彼此不相关的前提下尽可能多地反映原变量的信息,即使其方差最大。 
可以证明,求某一数据的主成分,等价于求它的协方差矩阵的各特征值及相应 
的正交单位化特征向量。按特征值由大到小所对应的正交单位化特征向量为组 
合系数的原变量的线性组合分别为该数据的第一、第二、…主成分,而各主成 
分的方差等于相应的特征值。 

3. PCA的做法步骤 

第一步:获得数据 
第二步:各数据减平均值 
第三步:计算数据的协方差矩阵 
第四步:计算协方差矩阵的特征值、特征向量 
第五步:选择前几个主成分构成新基 
第六步:把原数据在新的基下进行投影 
第七步:过滤杂音,并回到原基