GIBBS SAMPLING FOR THE UNINITIATED 学习备注

来源：互联网发布：linux中查看日志文件编辑：程序博客网时间：2024/06/05 08:46

1.MLE，MAP，EM的区别？

首先要明白我们要做啥，我们要做的是根据观察值建立一个模型，并且假定模型的结构是已知的，参数未知。

比如，给定了一组观察数据X=（x1,x2,,xn）假定已知服从F分布，其概率密度函数是f（#），我们要求的就是#，如果概率密度函数是f（#，%），我们要求的就是#，%。

MLE方法的思想是，寻找一个#，使得P（X）的概率最大，所以MLE成了一个求极值点的问题。

一般我们假定x1,x2,,xn独立同分布，所以P（X）=P(x1)P(x2)..P(xn).实际上P（X）里有个参数，所以写成P(X,#)或者P(X|#).

MAP最大后验概率。这里假设我们知道参数#服从某个已知的分布g（完全已知，形式和参数都已知）【先验知识】。结合贝叶斯公式，我们可以得到一个关于#的公式，然后最大化。所以MAP和MLE的区别是MLE中，我们完全根据观察得出结果，MAP中，我们则借助了以往我们对#的认识。如果g（#）是一个常数，则2种方法的结果是一样的。

EM似乎和MAP是一样的。只是在认识上，EM强调了充分利用#的知识，考虑了#的各种可能性。

2.Gibbs sampling的原理:Gibbs 采样首先根据条件概率产生一个序列。这个序列满足马尔科夫链的性质。然后用Monte Carlo采样的原理来做近似计算。

比如前面的X，如果直接观察X比较困难，但是可以根据条件概率来产生一个X的最可能值。所以，我们就产生了N个这样的Xi。N很大的时候，这样得到的xi和直接观察得到的X应该很接近。也就是和X实际服从的分布很接近。也就可以从这些产生的Xi中取几个估计分布F。在RBM中，xi的产生只和前面的xi-1个变量有关。这样产生一个新的Xi就更简单了。Xi是第i个观察值或产生值，xi是X中的第i个变量。