CS229课程笔记13：Factor Analysis简介

来源：互联网发布：js trimend用法编辑：程序博客网时间：2024/05/17 16:03

Ng将FA作为EM算法隐变量是连续变量的例子进行介绍，讲了很多公式推导的过程；笔者仅介绍其原理以及构造。

若我们假设数据是高斯分布N(μ,Σ)，利用最大似然法（maximum likelihood）得到的估计值为

μ^= 1 m \sum i = 1 m x i Σ^= 1 m \sum i = 1 m (x i - μ^) (x i - μ^) T

其中

xi∈Rn，

m为样本数量。

当m<<n或者m≃n时，Σ^大概率是奇异的，即行列式为0且不存在逆元。若直接进行估计得到的估计值无法用于求取x的概率分布。根本原因是模型复杂度过高，样本数过少。解决方式可以是加强假设，降低模型复杂度。例如我们可以加入Σ是对角阵的假设，利用最大似然法可以很容易求得

μ^j = 1 m \sum i = 1 m x i j σ^j = 1 m \sum i = 1 m (x i j - μ^j) 2

其中

j=1⋯n。更强的假设是

Σ=σ2I，当然也可以通过最大似然法求解。

上诉两个假设直接假设了所有predictor之间是无关的，这通常不符合实际情况，所以上诉两个假设实际使用并不广泛，效果不佳。Factor Analysis (FA)的假设相对较弱，相对前两种模型效果有所提升；但仍然依赖于高斯分布的假设，并不流行。目前最常用的成分分析的方法有ICA以及其各种变形。

Factor Analysis的假设

假设变量x是隐变量z的近似线性组合x=μ+Λz+ϵ，其中μ∈Rn是x的偏移量，ϵ∈Rn用于拟合线性组合之外的偏差，z∈Rd是位于低维空间空间中的隐变量（d<n或d∼n√），Λn×d是z到x的线性变换。

上诉是成分分析中常见的线性假设，Factor Analysis进一步假设z∼N(0,I)，以及ϵ∼N(0,Ψ)，这也是FA基于高斯分布假设的由来。

Ng之后就开始分析高斯分布的性质，然后利用EM算法对FA进行求解。这里仅稍微讨论一下上诉假设的一些小推论。

x \sim N (μ, Λ Λ T + Ψ) x | z \sim N (μ + Λ z, Ψ)

值得注意的是FA的假设使得FA的

Λ有无穷解，因为

z∼N(0,I)各维对称，所以可以任意变换该低维空间的基而不影响结果。具体地，任意orthonormal的方阵

R满足

RTR=I，有

x=μ+ΛRTRz+ϵ；令

Λ′=ΛRT，

z′=Rz，则有

E(z′)=0，

Var(z′)=E(z′z′T)=E(RRT)=I（因为

R是方阵，基于逆元的性质），从而

x=μ+Λ′z′+ϵ，且

z′∼N(0,I)。

阅读全文

0 0