17.5.2 经典相关分析(Canonical Correlation Analysis, CCA)

来源:互联网 发布:炫云客户端知乎 编辑:程序博客网 时间:2024/05/16 00:32

由于近期看到了某些文章中用到CCA subspace的方法。所以索性好好了解一下CCA。

在概率论中,相关系数的概念就是研究两个变量之间的线性相关情况。在此基础上,如果研究得失一个变量和多个随机变量之间的线性相关关系,所以提出了全相关系数(或者复相关系数)的概念。然后,在1936年又进一步做了推广,研究 多个随机变量和多个随机变量之间的线性相关关系,提出了经典相关分析的理论。
典型相关分析的实质就是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合), 用这些指标的相关关系来表示原来的两组变量的相关关系。这在两组变量的相关性分析中, 可以起到合理的简化变量的作用; 当典型相关系数足够大时, 可以像回归分析那样, 由- 组变量的数值预测另一组变量的线性组合的数值。
根据定义可以知道,CCA研究的是两组变量相关关系的一种多元统计方法。为求得这里写图片描述这里写图片描述两组变量之间的相关关系,有两种方法:一、列出一张表,就想研究协方差矩阵一样,这张表中包含两组变量任意两个变量之间的相关关系。然后就基于这张相关系数表进行分析。二、像主成分分析一样,在每一组变量中,都选取若干综合指标,这些综合指标是由变量线性组合而成。通过研究两组综合指标之间的关系来研究变量之间的线性关系。

具体的实现步骤:
寻求每一组变量的线性组合,然后两组变量的线性组合之间具有最大相关性。这中组合不唯一,而且也可能把变量的所有特征全部涵盖。
继续寻求寻求每一组变量的线性组合,而这一次则要求两组变量的线性组合之间具有最大相关性,而且要与第一次找到的组合不相干。也就是具有一种类似于正交的关系。
这里写图片描述
这里写图片描述
典型相关分析,为什么叫作典型。每一组变量的线性组合得到的新变量,X和Y 称之为典型变量。
具体的计算实例可以参照 典型相关分析。

0 0
原创粉丝点击