PCA(主成分分析)与FA(因子分析)的直白理解
来源:互联网 发布:知轩藏书电脑版 编辑:程序博客网 时间:2024/05/18 10:25
主成分分析和因子分析是数据挖掘中常用的方法,帮助我们对原始数据有更好的理解,同时也可以实现降维等操作,为后续工作提供便利。
但是有一些博客的介绍中,其中数学推导的部分过多,没有很好地跟实际例子结合到一起,通俗易懂地解释这两个东西。我更想更需要直白的解释。
PCA
何谓主成分分析,其实大家通常意义说的那个借助于特征值和特征向量的PCA方法,应该叫做“基于方差最大化的特征主成分分析”。
真正的主成分分析,应该是所有能够对数据实现主要成分表示的方法的总的称谓。
因为,主成分分析的目标是:
其中,
如何表示
先讲“基于方差最大化的特征主成分分析-PCA”,我们暂且还是这么叫它为PCA。
PCA一开始就没打算直接对数据怎么样,而是研究维度之间的关系,将维度简化,比如去掉相关性之类的,或者是去掉一些用处不大的维度。
假设样本矩阵去中心后,表示为
如果从线性相关性入手研究的话,就必须要提到协方差矩阵
刚好
协方差在一定程度上描述了维度之间的线性关系,为什么呢?
因为线性相关系数
这个协方差矩阵是否可以缩减一下,(有些维度是线性相关性很强的,并且我们如果把主要信息所在的维度)如果可以把相关性这层关系表示成另外一种简化形式,岂不是更好。
这个时候就需要特征值和特征向量的登场了。
对某个矩阵
从空间变换上来看,
怎么解释特征值呢,就是数据在特征向量方向上的方差。方差越大,信息量越大。(可否理解为方差越大,不确定性越大,信息量越大。方差小的表示本维度的值波动范围小,对样本标签的预测也就无法很好地预测,方差大的才能更好地。)
那么,这样就好了,我们对维度之间的关系矩阵,进行特征值分解,
于是将维度之间的关系矩阵,表示在了特征向量为基底的空间内,得到
(1)
(2)Q也可以不单位正交化。
根据原始维度之间的协方差关系,可以找到新的维度空间(特征向量为基底表示的空间),且能够变换过去,且不同特征值之间的特征向量线性不相关(所以有人也说是去相关)。
选择
我们看到,主成分是指的维度的主成分,此处用的是方差最大的一种主成分分析,当然还可以用其他标准来分析其主成分,所以主成分分析是个很大的概念。
Factor Analysis
因子分析,实际上应该叫做公共因子分析,为什么呢?看其定义:
因子分析的原理是假设原始的数据是由公共因子(公共维度)与误差因子(非公共维度)构成的,如上式所写。(但因子分析更关心公共因子,对特殊因子不甚关心)
那么,问题来了,如何找到公共因子呢?
我从一个易于理解的角度,为大家解析基于特征向量的公共因子分析,而不是从很恐怖的统计角度。我仅仅是去凑出公共因子分析的定义形式,然后去比对着定义找公共因子。其中很多地方是与任浩同学的讨论明白的。
我们先尝试对上式变形运算:
先看右侧,我们将非公共部分去掉,得到:
注意此处的约等于不是抽取公共因子(用少量公共因子)之后造成的约等,而是因为去掉了特殊因子造成的约等。
对比上式:
如果从
此处的左侧
至此,公共因子的抽取也就结束了,至于公共因子旋转之类的操作,是为了使得公共因子更具有可解释性,暂时还不做解释了。
还有如何利用公共因子去分析原始维度的重要性,这里也不做赘述了,大家自己上网搜索了解吧。
公共因子的形式可以有很多种,都能凑出定义的形式来,那么也就有很多因子分析方法了。
小结
PCA和FA是很常用的因素分析方法,他们之间既有联系又各不相同。
主成分分析,是分析维度属性的主要成分表示。
因子分析,是分析属性们的公共部分的表示。
1 0
- PCA(主成分分析)与FA(因子分析)的直白理解
- 主成分分析与因子分析的区别
- 因子分析与主成分分析之间爱恨离愁。FA与FCA
- 对主成分分析(PCA)算法的理解2
- 浅谈对主成分分析(PCA)算法的理解
- 浅谈对主成分分析(PCA)算法的理解
- 浅谈对主成分分析(PCA)算法的理解
- 对KLT,主成分分析(PCA)算法的理解
- 浅谈对主成分分析(PCA)算法的理解
- 主成分分析(PCA)的数学原理理解
- (statistic)因子分析与主成分分析辨析
- 主成分分析(PCA)的数学原理与应用
- 主成分分析与因子分析详细的异同和SPSS软件(转)
- 主成分分析(PCA)的来龙去脉
- 主成分分析(PCA)的理解
- 主成分分析(PCA)
- 主成分分析(PCA)
- 主成分分析(PCA)
- weblogic 中域,集群,管理服务器和被管服务器之间的关系
- 不少程序员都会碰到的三个面试题
- 网站被DDOS攻击了怎么办
- 停止线程
- 关于苹果耳机或者其他耳机在电脑上不能正常播放音乐问题解决
- PCA(主成分分析)与FA(因子分析)的直白理解
- alpha测试和Beta测试的区别
- 汉语字典APP开发总结
- OpenCv学习笔记(二)—cv::Mat学习
- vbox中centeos 虚拟机共享window7主机文件夹
- Android 悬浮窗
- Android 性能优化
- awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
- 解决Android SDK国内无法更新的问题