【习题集四】无监督学习和强化学习

来源：互联网发布：河北seo按效果付费编辑：程序博客网时间：2024/05/29 07:40

1. 监督学习的EM算法 EM for Supervised Learning

我们曾推导过针对无监督学习的EM算法，，其中，我们将p(x)表示为，其中z是隐含参数

下面我们将尝试将EM算法应用于监督学习模型，并讨论“混合线性回归Mixture of Linear Regressors”模型，这是一种专业模型层次化混合Hierarchial Mixture of Expert Model的一个实例，其公式为.

为了简化模型，我们将z设为一个二元变量，并认为p(y|x, z)服从高斯分布，且p(y|x)可由logistic回归模型描述，因此我们有如下公式

其中σ是已知参数，我们希望求得n维向量φ、θ0、θ1，且θ的下标仅表示不同的参数向量，不表示不同的输入。

直观而言，这一过程可被理解为如下过程：给定一个数据点x，我们先根据logistic模型确定其隐含参数的分类，如z=0或z=1；在此基础上认为y是x的线性函数并加上一些高斯误差（不同的z对应不同的线性方程）。如下图所示

（1）假设x、y、z都可被观测到，即我们有训练集{(x1, y1, z1), (x2, y2, z2), (xm, ym, zm)}。给出参数的最大对数似然方程，并给出φ、θ0、θ1的最大似然估计。注意到由于p(z|x)为logistic模型，故φ没有一个闭式的精确解，因此我们可以通过给出其Hessian矩阵和对φ求导的结果。

解：对数似然函数为

将其对θ0求导，并令结果为0，我们有

但这只是数据集的子集中的最小平方误差问题，事实上，如果我们令所有的z均为0，通过同样的方法，我们可得到关于θ0的最大似然估计为

同理我们也可以获得对θ1进行最大似然估计的结果。

将对数似然函数对φ求导，并忽略与φ无关的项，可得如下方程

这是一个典型的logistic回归方程，我们已知其导数和Hessian矩阵为

（2）现在假设z是一个隐含（不可见）的随机变量，给出参数的对数似然函数，并推导求得对数似然函数最大值的EM算法，主要应当明显区分E步和M步（再次提醒，M步要求数值解，给出导数和Hessian矩阵即可）

解：对数似然函数为

在EM算法中的E步我们将计算下式

在M步中，我们首先定义对j=0或1均成立（但实际中我们只需计算一个即可，如计算w0，此时w1=1-w0）。将我们的对数似然函数的下界对θ0求导，移去无关项，并将表达式的结果设为0，可得下式为

这是一个典型的加权最小平方问题，其解为

对θ1的求导过程也是相似的。

为了给出对φ的导数和Hessian矩阵，我们注意到

此时导数和Hessian矩阵可表示为

2. 因子分析和主成分分析 Factor Analysis and PCA

设z为一个k维向量，其为一个隐含参数，且分布(x, z)满足

其中U是一个n*k的模型参数矩阵，σ是一个已知的常量。这一模型常被称为概率主成分分析模型Probabilitic PCA。注意到这跟因子分析模型很像，只是我们假设x|z的方差是一个已知的矩阵，而不是简单的对角参数矩阵Φ，并且我们没有对均值项增加噪声μ（尽管这只是为了简化表示）。在这一模型中，如果我们令σ为0，则其就是我们讨论的PCA模型。

为了简化问题，我们认为在之后的讨论中k=1，即U是一个n维的列向量。

（1）使用控制高斯分布Manipulating Gaussian Distribution确定(x, z)的联合分布和条件分布z|x。【提示：对于条件分布，使用习题集一中给出的(λI+BA)^-1*B=B*(λI+AB)^-1可以简化运算】

解：为了计算联合分布，我们计算x和z的均值和方差，我们已知E[z]=0，并有

由于x和z的均值都为0，因此我们有

因此，x和z的联合分布为

使用条件概率分布的相关定理，z|x的均值和方差为

（2）推导针对上述模型的EM算法，并明确给出E步和M步。

解：注意：尽管z(i)是一个标量，为了保持和因子分析算法的一致，我们依然使用它的转置符号。

在E步中，我们首先计算

在M步中，我们需要将下式最大化

将上式对U求导，移除无关项，为

令上式结果为0，则有

（3）当σ趋近于0时，证明如果EM算法趋向于参数向量U*，则U*必为矩阵的特征向量，即满足【提示：当σ趋向于0时，Σz|x也趋向于0，所以E步只需计算μz|x即可，令m维向量w包含所有均值，即wi=μz(i)|x(i)，并证明E步和M步可表示为.最后证明如果U在更新后值没有发生变化，则其一定为特征向量】