PCA的分析与几何性质

来源:互联网 发布:seo与网络营销 编辑:程序博客网 时间:2024/06/06 04:14

  以下两个关于一维表示样本的问题与PCA模型等价。只考虑第一主方向唯一的情况。

分析:方差信息保留最大

  给定样本点{xi}Ni=1Cn,求保留信息最多的方向。在PCA中信息在某方向上的多寡定义为数据在该方向投影值之方差。另择亦可,参见信息熵。
  按上定义,所求应为

\mathop{\rm argmax}_{\substack{u\in\mathbb{C}^n\\\|u\|=1}}\sum_{i=1}^N\left(\left\langle x_i,u\right\rangle-\frac{1}{N}\sum_{j=1}^N\left\langle x_j,u\right\rangle\right)^2,

argmaxuCnu=1i=1Nxi,u1Nj=1Nxj,u2,

argmaxuCnu=1(I1N11)Xu2.

  令X¯=X(I1N11),即中心化,则要求

argmaxuCnu=1X¯u2.

  对X¯进行SVD分解,得

argmaxuCnu=1Σ¯U¯u2,

则显然解为

u=[U¯],1,

此时任意xCn在该流形上的坐标表示为

xlabel=x1ni=1Nxi,u.

  注意若X¯最大特征值的特征空间维数为一,即PCA解唯一时,此表示与样本空间坐标架选取无关,因核函数为K(x,y)=x,y=Ux,Uy,其中UCn×n为酉矩阵。若特征空间维数不为一,则无此一致性。详参Kernel PCA一文。
  另外,原问题等价于

argmaxuCnu=1uX¯X¯u,

其中X¯X¯T=X(I1N11T)XT即为协方差矩阵。

几何:低秩拟合误差最小

  给定样本点{xi}Ni=1Cn,求与样本点距离平方和最小的一维流形。
  相当于允许样本点有一致平移量vCn后到单位向量uCn张成子空间的距离平方和最小。知对任意xCn,其至span{u}之距离为

xx,uu2=x2|x,u|2.

  即要求

argminu,vCnu=1i=1n[xiv2|xiv,u|2].

  分离变量后先解决子问题

\mathop{\rm argmin}_{v\in\mathbb{C}^n}\sum_{i=1}^n\left[\left\| x_i-v\right\|^2-\left|\left\langle x_i-v,u\right\rangle\right|^2\right].

argminvCni=1n[xiv2|xiv,u|2].

  注意当vvuu平行时\sum_{i=1}^n\left[\left\| x_i-v\right\|^2-\left|\left\langle x_i-v,u\right\rangle\right|^2\right]=\sum_{i=1}^n\left[\left\| x_i\right\|^2-\left|\left\langle x_i,u\right\rangle\right|^2\right]ni=1[xiv2|xiv,u|2]=ni=1[xi2|xi,u|2],故不妨设vu。对目标函数关于v求导为0得

nv=i=1nxii=1nxi,uu,

由前讨论,v可取简单形式1nni=1xi,即中心化。记中心化后样本点为{x~i}Ni=1Cn,问题转化为

==argminuCnu=1i=1n[x~2|x~,u|2]argmaxuCnu=1i=1n|x~,u|2argmaxuCnu=1uX¯X¯u.

原创粉丝点击