程序博客网 > 淘宝全球购店怎么开

最大似然估计（MLE）和最大后验概率（MAP）

来源：互联网发布：淘宝全球购店怎么开编辑：程序博客网时间：2024/06/05 21:17

最近在研究概率估计，最大似然估计（MLE）和最大后验概率（MAP）都可以用于估计生成样本数据的概率分布。

但二者略有区别，进行一下分析：

最大似然估计（MLE，Maximum Likelihood Estimation）

给定一堆数据，假如我们知道它是从某一种分布中随机取出来的，可是我们并不知道这个分布具体的参数，即“模型已定，参数未知”。例如，我们知道这个分布是正态分布，但是不知道均值和方差；或者是二项分布，但是不知道均值。最大似然估计就可以用来估计模型的参数。MLE的目标是找出一组参数μ，使得模型产生出观测数据的概率最大，即：

其中P(X; μ)就是似然函数，表示在参数为μ的概率分布下，产生数据X的概率。我们假设每个观测数据是独立的，那么有

为了求导方便，一般对目标取log。所以最优化似然函数等同于最优化对数似然函数，即：

举一个抛硬币的简单例子。现在有一个正反面不是很匀称的硬币，如果正面朝上记为H，方面朝上记为T，抛10次的结果如下：

求这个硬币正面朝上的概率有多大？一个比较直接的结果是20%。

现在我们用MLE的思想去求解它。我们知道每次抛硬币都是一次二项分布，设正面朝上的概率是，那么似然函数为：

x=1表示正面朝上，x=0表示方面朝上。那么有：

使用求导的方法求最优的μ值：

令导数为0，很容易得到：

答案也就是0.2 。

然而，MLE估计不会把先验知识考虑进去，而且很容易造成过拟合现象。

举个例子，比如对癌症的估计，一个医生一天可能接到了100名患者，但最终被诊断出癌症的患者为5个人，在MLE估计的模式下我们得到的得到癌症的概率为0.05。

这显然是不太切合实际的，因为我们根据已有的经验，我们知道这种概率会低很多，这就是由于MLE估计没有把这种知识融入到模型里。

最大后验估计（MAP，Maximum A Posteriori Estimation）

假如上半部分的参数μ有一个先验概率呢？比如说，在上面抛硬币的例子，假如我们的经验告诉我们，硬币一般都是匀称的，也就是μ=0.5的可能性最大，μ=0.2的可能性比较小，那么参数该怎么估计呢？这就是MAP要考虑的问题。MAP优化的是一个后验概率，即给定了观测值后使μ概率最大：

把上式根据贝叶斯公式展开：

我们可以看出第一项P(X| μ)就是似然函数，第二项P(μ)就是参数的先验知识。取log之后就是：

这些先验信息无法从数据中获得（就像我们在上面举的癌症的例子），其实在上式中正好起到了正则化的作用，如：如果假设P(μ)服从高斯分布，则相当于加了一个L2范数；如果假设P(μ)服从拉普拉斯分布，则相当于加了一个L1范数。相比于MLE估计，先验附加信息有助于减少估计的方差，但是代价是增加了偏差。

部分内容来自于博客：

http://www.cnblogs.com/little-YTMM/p/5399532.html

https://www.cnblogs.com/sylvanas2012/p/5058065.html

阅读全文

0 0

淘宝全球购店怎么开

淘宝全球购店怎么开

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子寂寞人寂寞的舞者寂寞妻子寂寞老师寂寞近义词寂寞的英文寂寞图片好寂寞空虚寂寞寂寞的女人寂寞反义词寂寞先生寂寞的意思寂寞网寂寞歌词寂寞空庭春寂寞了寂寞的图片寂寞妹妹寂寞空虚寂寞寂寞寂寞是什么寂寞寂寞就好歌词寂寞烟寂寞在唱歌寂寞男女寂寞怎么办寂寞英语寂寞吗寂寞如雪寂寞吧寂寞乡村寂寞的诗寂寞英文寂寞少女寂寞歌曲寂寞空庭寂寞的歌寂寞图寂寞山寂寞梧桐