因子分析Factor analysis

来源：互联网发布：日用化学品科学知乎编辑：程序博客网时间：2024/05/05 02:52

简介：本文主要介绍EM算法求解因子分析问题

因子分析Factor analysis

在文章 EM算法求解混合高斯模型时，通常假设拥有足够多的样本去构造这个混合高斯分布，即样本数量n要远大于样本维数d： $n\gg d$ 如果样本数量小于样本维数，那么协方差矩阵 $\Sigma$ 是奇异矩阵,那么 $\Sigma^{-1}$ 和 $1/\left | \Sigma \right |^{1/2}$ 都无法计算。在因子分析中，一个d维的向量通常由一个k维向量生成，通常k远小于d。具体模型如公式1所示:

$x=\Lambda z+\varepsilon$ 公式1

上式中d x k维矩阵 $\Lambda$ 称为因子载荷矩阵factor loading matrix,k维向量z称为因子factors,d维向量 $\varepsilon$ 是满足均值为0，对角协方差矩阵的高斯分布的噪声，那么根据公式1该模型写成概率形式如公式2所示：

$\begin{matrix} P(z)=N(0,I)\\ P(\varepsilon )=N(0,\Psi )\\ P(x\mid z)=N(\Lambda z,\Psi ) \end{matrix}$ 公式2

该模型如图1所示：

图1 因子分析生成模型

根据 Pattern Recognition and Machine Learning 已知公式2可得x的边缘概率和已知z的条件概率如公式3和公式4所示(详见原书公式2.113-2.117):

$P(x)=N(0,\Lambda {\Lambda}' +\Psi )$ 公式3

$\begin{align*} P(z\mid x) &= N((I+{\Lambda }'\Psi^{-1} \Lambda )^{-1}\Lambda '\Psi^{-1}x,(I+{\Lambda }'\Psi^{-1} \Lambda )^{-1})\\ &= N({\Lambda }'(\Lambda{\Lambda }'+\Psi)^{-1}x,I-{\Lambda }'(\Lambda{\Lambda }'+\Psi)^{-1}\Lambda) \end{align*}$ 公式4

根据公式3采用极大似然估计法maximum-likelihood estimation (MLE) 可以的到似然函数如公式5所示：

$L(\Lambda ,\Psi ) = ln\prod_{i=1}^{n}\frac{1}{(2\pi)^{d/2}\left | \Lambda {\Lambda }'+\Psi \right |^{1/2}}e^{-\frac{1}{2}(x_{i}-\mu)'(\Lambda {\Lambda }'+\Psi)^{-1}(x_{i}-\mu)}$ 公式5

直接对公式5求导并令其等于0很难得到结果，而EM算法可以很好的解决这个问题。

回顾 EM算法 (这里z为隐含变量)，迭代过程如下所示：

E-Step:

$q(z_{i}) \leftarrow N({\Lambda }'(\Lambda{\Lambda }'+\Psi)^{-1}x_{i},I-{\Lambda }'(\Lambda{\Lambda }'+\Psi)^{-1}\Lambda)$ 公式6

M-Step:

$\Theta \{\Lambda ,\Psi \}\leftarrow \underset{\Theta}{arg max}\sum_{i=1}^{n}\int_{z}q(z)ln\,P(x,z\mid \Theta)\mathrm{d}z$ 公式7

上述算法E-Step直接利用公式4的结论，下面详细分析M-Step。把要求的最大化概率推到导公式8所示，其中K是和参数无关的常量：

$\begin{align*} \sum_{i=1}^{n}\int_{z}q(z)ln\,P(x,z\mid \Theta)\mathrm{d}z &= \sum_{i=1}^{n}\int_{z}q(z)[ln\,P(x\mid z;\Lambda ,\Psi )+ln\,P(z)]\mathrm{d}z\\ &= \sum_{i=1}^{n}E_{z\sim q(z)}[ln\,P(x\mid z;\Lambda ,\Psi )+ln\,P(z)]\\ &= \sum_{i=1}^{n}E_{z\sim q(z)}[ln\,P(x\mid z;\Lambda ,\Psi )]+K\\ \end{align*}$ 公式8

去掉常量，最终需要最大化的式子如公式9所示：

$\begin{align*} \sum_{i=1}^{n}E[ln\,P(x\mid z;\Lambda ,\Psi )] &= \sum_{i=1}^{n}E[ln\,\frac{1}{(2\pi)^{d/2}\left|\Psi \right |^{1/2}}e^{-\frac{1}{2}(x-\Lambda z)'\Psi^{-1}(x-\Lambda z)}]\\ &= \sum_{i=1}^{n}E[-\frac{1}{2}ln\,\left | \Psi \right |-\frac{n}{2}ln\,(2\pi)-\frac{1}{2}(x-\Lambda z)'\Psi^{-1}(x-\Lambda z)]\\ \end{align*}$ 公式9

求参数 $\Lambda$

根据矩阵迹Trace性质 $tr\,a=a,tr\,AB=tr\,BA$ 和矩阵求导的性质 $\partial trABA^{T}C\setminus \partial A=CAB+C^{T}AB$ ,公式9对 $\Lambda$ 求偏导如下：

$\begin{align*} \bigtriangledown_{\Lambda } L(\Lambda ,\Psi) &= \bigtriangledown_{\Lambda }\sum_{i=1}^{n}E[-\frac{1}{2}ln\,\left | \Psi \right |-\frac{n}{2}ln\,(2\pi)-\frac{1}{2}(x-\Lambda z)'\Psi^{-1}(x-\Lambda z)]\\ &= \bigtriangledown_{\Lambda }\sum_{i=1}^{n}E[-\frac{1}{2}(x-\Lambda z)'\Psi^{-1}(x-\Lambda z)]\\ &= \bigtriangledown_{\Lambda }\sum_{i=1}^{n}E[-\frac{1}{2}x'\Psi^{-1}x+\frac{1}{2}x'\Psi^{-1}\Lambda z+\frac{1}{2}z'\Lambda \Psi^{-1}x-\frac{1}{2}z'\Lambda'\Psi^{-1}\Lambda z]\\ &= {\color{Blue} \bigtriangledown_{\Lambda }\sum_{i=1}^{n}E[tr(z'\Lambda \Psi^{-1}x)-\frac{1}{2}tr(z'\Lambda'\Psi^{-1}\Lambda z)]}\\ &= {\color{Red} \bigtriangledown_{\Lambda }\sum_{i=1}^{n}E[tr(\Lambda \Psi^{-1}xz')-\frac{1}{2}tr(\Lambda'\Psi^{-1}\Lambda zz')]}\\ &= {\color{Green} \sum_{i=1}^{n}E[\Psi^{-1}xz'-\Psi^{-1}\Lambda zz']} \end{align*}$ 公式10

带颜色部分利用了矩阵相关性质,令其等于0我们可以得到：

$\sum_{i=1}^{n}\Lambda E_{\sim z}[zz']=\sum_{i=1}^{n}E_{\sim z}[xz']$

整理可得 $\Lambda$ 如公式11所示：

$\Lambda=\sum_{i=1}^{n}xE[z'](\sum_{i=1}^{n}E[zz'])^{-1}$ 公式11

根据公式4，E[z]如公式12所示：

$E[z]={\Lambda }'(\Lambda{\Lambda }'+\Psi)^{-1}x$ 公式12

根据公式4，E[zz’]如公式13所示：

$\begin{align*} E[zz'] &= cov[z]+E[z]E[z']\\ &= I-{\Lambda }'(\Lambda{\Lambda }'+\Psi)^{-1}\Lambda+E[z]E[z'] \end{align*}$ 公式13

求参数 $\Psi$

公式9对 $\Psi$ 求偏导如下：

$\begin{align*} \bigtriangledown_{\Psi^{-1} } L(\Lambda ,\Psi ) &= \bigtriangledown_{\Psi^{-1} }\sum_{i=1}^{n}E[-\frac{1}{2}ln\,\left | \Psi \right |-\frac{n}{2}ln\,(2\pi)-\frac{1}{2}(x-\Lambda z)'\Psi^{-1}(x-\Lambda z)]\\ &= \sum_{i=1}^{n}(-\frac{1}{2}\bigtriangledown_{\Psi^{-1} }ln\,\left | \Psi \right |-\bigtriangledown_{\Psi^{-1} }E_{\sim z}\frac{1}{2}(x-\Lambda z)'\Psi^{-1}(x-\Lambda z))\\ &= \sum_{i=1}^{n}(\frac{1}{2}\Psi-E_{\sim z}\frac{1}{2}(x-\Lambda z)(x-\Lambda z)') \\ &= \sum_{i=1}^{n}(\frac{1}{2}\Psi-\frac{1}{2}xx'+ \frac{1}{2}xE[z']\Lambda^{'}+ \frac{1}{2}\Lambda E[z]x'-\frac{1}{2}\Lambda E[zz']\Lambda^{'}) \\ &= {\color{Blue} \sum_{i=1}^{n}(\frac{1}{2}\Psi-\frac{1}{2}xx'+\frac{1}{2}\Lambda E[z]x')} \end{align*}$ 公式14

最后一步通过公式11代入得到，那么整理得到：

$\Psi= \frac{1}{n}\sum_{i=1}^{n}(xx'-\Lambda E[z]x')$