典型相关分析如何分析两组变量的关系

来源:互联网 发布:单片机教程 编辑:程序博客网 时间:2024/06/14 09:10

前言

我们在分析两组变量之间的相关性时,比如X=[X1,X2,...,Xm]Y=[Y1,Y2,...,Yn],最原始的方法就是直接计算X和Y的协方差矩阵,矩阵有m*n个值。有了协方差矩阵就得到了两两变量之间的相关性,比如cij就是变量XiYj的相关性。

这种分析方法只考虑了cij变量XiYj变量单个维度之间的相关性,没有考虑X和Y内部之间的相关性。另外协方差矩阵的形式也比较繁琐。

典型相关分析

采用类似主成分分析的思想,分别找出两组变量各自的线性组合,然后讨论线性组合之间的相关关心。

分别在两组变量中找出第一对线性组合,使他们具有最大相关性;接着再分别在两组变量中找出第二对线性组合,使他们具有第二大的相关性,并且它们分别于本组内的第一线性组合不相关。以此类推找出其他线性组合,如下面提取两对线性组合,其中 u1u2互相独立,v1v2互相独立,u1v1相关。

u1=a11x1+a12x2+...+a1mxmv1=b11y1+b12y2+...+b1nyn

u2=a21x1+a22x2+...+a2mxmv2=b21y1+b22y2+...+b2nyn

假设提取了r次,则最后提取了r组变量,

U=(u1,...,ur)TV=(v1,...,vr)T

则实现通过线性组合来表示原变量,并且用他们之间的相关性来表示原变量的相关性。

本质是什么

典型相关分析的本质是从两组变量中选取若干个有代表性的变量线性组合,用这些线性组合的相关性来表示原来两组变量的相关性。

求解线性组合

以第一组线性组合为例,这里要求解的就是包含的系数。

u1=a11x1+a12x2+...+a1mxmv1=b11y1+b12y2+...+b1nyn

矩阵形式为,

u1=aT1Xv1=bT1Y

只考虑方差为1时的线性函数,这时其实就存在一个约束条件,D(u1)=D(v1)=1,我们求常向量aT1bT1,使得相关系数ρ(u1,v1)达到最大。

方差分别为,

D(u1)=D(aT1X)=aT1Cov(X,X)a1D(v1)=D(bT1Y)=bT1Cov(Y,Y)b1

u1v1的协方差为,

Cov(u1,v1)=aT1Cov(X,Y)b1

另外我们还有,

Cov(X,X)=11Cov(Y,Y)=22Cov(X,Y)=12

两者的相关系数为,

Corr(u1,v1)=Cov(u1,v1)D(u1)D(v1)=aT112b1aT111a1bT122b1

我们要做的是寻找a1b1使相关系数最大,同时要考虑前面说到的约束条件D(u1)=D(v1)=1,它能防止结果重复出现,则相关系数变为,

Corr(u1,v1)=aT112b1

求条件极值一般可以引入拉格朗日乘数来求极大值,求解出aT1bT1

对于其他组的线性组合也同样根据上述过程得到解。

线性组合数量

根据线性组合相关性大小不断提取线性组合,最大的为第一组,次大的为第二组,以此类推直到 r

怎么分析

比如第一组线性组合中,可以计算两组变量与u1和v1的相关系数,如果某若干个变量与u1相关系数较大,则u1代表该若干变量的总指标,可以自己根据变量取个额外的名称。而同样如果v1和其他若干变量的相关系数较大的话则v1可代表该若干变量。

接着如果u1和v1的相关系数较大的话则说明u1代表的若干变量与v1代表的若干变量是关系密切的。对于其他线性组合也一样,先找出u2和v2相关的若干变量,然后再看u2与v2之间的相关系数,判断其是否相关。

=============广告时间===============

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等,可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了,有需要的朋友可以购买。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

=========================

欢迎关注:

这里写图片描述