【十四】主成分分析

来源:互联网 发布:淘宝玫瑰药妆是正品吗 编辑:程序博客网 时间:2024/04/27 16:49

因子分析的EM算法 EM Algorithm for Factor Analysis

这一部分的内容详见上一讲后半部分的讲解,在此不再给出


主成分分析 Principal Components Analysis

我们讨论因子分析法,是为了使用一种方法,将高维的训练数据映射到低维空间中去,从而达到降维的作用。在因子分析法中,我们认为n维的训练点是通过首先生成d维的点,再以该点为中心服从高斯分布,并加上一定的噪声。因子分析是以概率模型为基础,使用EM算法进行参数估计实现的。在本节中,我们讨论的主成分分析方法(PCA)也是使用将n维向量近似在d维上的方法,但这一方法相对更直接,只需计算特征向量即可,且并不需要使用EM算法,因此具有很广的应用范围。

主成分分析方法考虑了各参数之间的相关性,比如在一个向量中,可能两个参数只是不同单位制下对同一物体的度量,因此这两个参数表达的内容是相同的,但由于读数误差、近似误差等原因,这两个参数只能进行近似的转化,则一个n维的向量变成了n-1维,达到了降维的效果。但这一方法是通过我们人工分析的,我们希望有一种自动识别的方法进行同样的操作。


如我们希望自动检测出上图中兴趣和能力之间的线性关系,即发现图中所示的方向u1。此时我们将介绍PCA算法,但在进行算法之前,就我们首先要对数据进行正则化,这是为了防止不同尺度的数据(如1和100)对算法结果的影响。


经过上述步骤,我们可以发现1、2步将数据的均值设置为0;3、4步将数据的方差设置为1。

下面我们将计算主轴的方向(即u1),所有的n维数据将投影到d维主轴上,从而达到降维的效果。假设我们已有经过正则化的数据点如下


现在我们假设发现了主轴的方向u1如下图所示。


将数据点投影到主轴上后,应是投影点获得较大的区分,即有较大的方差。如果如下图所示的方向作为主轴,则各投影点之间区分不明显,是我们不希望的结果。

为了使投影后方差最大,我们可列方程为


因此将u的模设为1则可得出u应为矩阵的特征矩阵,而这一矩阵正是训练集的协方差矩阵。

因此,当我们需要将一个n维的数据降维至k维,则我们要选取协方差矩阵最大的前K个特征值所对应的特征向量u1,...,uk,并将其转化为


这k个特征向量称为k个主成分,这一算法称为降维算法


// 这里是分割线~

// 顺便个自己的公众号打个广告,希望大家多多关注~

// 关注我的公众号可以看到更多有意思的东西哦~


0 0