主成分分析(Principal Component Analysis)

来源:互联网 发布:设计电路板的软件 编辑:程序博客网 时间:2024/04/30 12:26

一、何谓主成份分析(PCA)?
当某一问题同时可以考虑好几个因素时,我们并不对这些因素个别处理,而是将它们总和起来处理,这就是PCA。
主成份分析主要目的乃是希望用较少的变量去解释原来数据中的大部分变异,即期望能将我们手中许多相关性很高的变量转化成彼此互相独立的变量,能由其中选取较原始变量个数少,能解释大部分数据之变异的几个新变量,也就是所谓的主成份,而这几个主成份也就成为我们用来解释数据的总和性指针。
用解释变异之能力来寻找主成份主要是希望能真正反映出程度差异的真实分布状况。就统计上而言,即产生愈大的变异数,愈能够反映彼此程度之差异,所以此指标能产生愈大的变异数,代表对于程度差异拥有愈大的反映及解释能力。

二、模式
PC(1) = a11X1 + a12X2 + 。。。。。 + a1pXp
PC(2) = a21X1 + a22X2 + 。。。。。 + a2pXp
 。
 。
PC(m) = am1X1 + am2X2 + 。。。。。 + ampXp

PC(1),PC(2),。。。,PC(m)分别叫做第1主成份,第2主成份,。。。 以及第m主成份, 而总和的特性也就是用这些1次式的系数,ai1,。。。,aip来表示。
其中在选择加权数,a11。。。,a1p时即要能使PC(1)得到最大解释变异能力,亦即使PC(1)能得到最大之变异数,而PC(2)则是能对原始数据中尚未被PC(1)解释的变异部分拥有最大解释能力,若以此类推,我们可以找出m个PC出来*(m≦p),通式如下:

Xj ,    j = 1, 2 ,。。。。, P
PC(m) = am1X1 + am2X2 + 。。。。。 + ampXp
我们可以 Y = β1X1 +β2X2 + 。。。。。+βpXp  来表示。

(*)通常原始数据有P个X变量时,经过转换后,仍可找出m个出来,然而原本我们最多只选择P个PC(m ≦ P),希望此愈小愈好,但解释能力却能达到约80%以上。除此之外,P个PC与原来的P个变量X,最大之差别乃是:原本之变量群中,多为彼此相关连的变量,而经过线性转换后所产生的P个PC则为彼此独立之新变量。