参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE)

来源:互联网 发布:centos入侵 编辑:程序博客网 时间:2024/05/19 13:13

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE)

基础

频率学派与贝叶斯学派

http://www.douban.com/group/topic/16719644/

http://www.zhihu.com/question/20587681

最大似然估计(Maximum likelihood estimationMLE

http://baike.baidu.com/view/1918804.htm

http://baike.baidu.com/view/185250.htm

最大后验估计(maximum a posteriori estimationMAP

http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

贝叶斯估计(Bayesian parameter estimationBPE

http://baike.baidu.com/view/6960491.htm

 

经典参数估计方法:普通最小二乘(OLS)、最大似然(ML)和矩估计(MM

http://lijiwei19850620.blog.163.com/blog/static/97841538201211282591699/

贝叶斯定理与贝叶斯估计

http://lijiwei19850620.blog.163.com/blog/static/978415382013655540438/

 

参数估计

从二项式分布到多项式分布-Beta分布到Dirichlet分布

http://hi.baidu.com/leifenglian/item/636198016851cee7f55ba652

参数估计是一个重要的话题。对于典型的离散型随机变量分布:二项式分布,多项式分布;典型的连续型随机变量分布:正态分布。他们都可以看着是参数分布,因为他们的函数形式都被一小部分的参数控制,比如正态分布的均值和方差,二项式分布事件发生的概率等。因此,给定一堆观测数据集(假定数据满足独立同分布),我们需要有一个解决方案来确定这些参数值的大小,以便能够利用分布模型来做密度估计。这就是参数估计!

对于参数估计,一直存在两个学派的不同解决方案。一是频率学派解决方案:通过某些优化准则(比如似然函数)来选择特定参数值;二是贝叶斯学派解决方案:假定参数服从一个先验分布,通过观测到的数据,使用贝叶斯理论计算对应的后验分布。先验和后验的选择满足共轭,这些分布都是指数簇分布的例子。

参数估计方法的一个限制:是我们人为的假定了参数分布服从了某种指定形式的分布函数,这可能在某些特定情况下是不合适的。有一种可选的解决方案是:非参数密度估计,他只依赖于观测数据量的大小,这种方法其实也需要参数,但是这些参数只是控制了模型的复杂性而不是分布的函数形式。有三种无参密度估计方法:直方图,最近邻,核函数。

 

经典估计与贝叶斯估计

文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

http://blog.csdn.net/yangliuy/article/details/8296481

语言模型的参数估计-最大似然估计、MAP及贝叶斯估计

http://hi.baidu.com/leifenglian/item/cdfdeaea9c3279088c3ea86c

参数估计:最大似然、贝叶斯与最大后验

http://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

贝叶斯估计浅析

http://www.cnblogs.com/xueliangliu/archive/2012/08/02/2962161.html

极大似然估计和贝叶斯估计

http://blog.sciencenet.cn/blog-520608-703219.html

 

贝叶斯方法与经典估计方法的主要不同

http://lijiwei19850620.blog.163.com/blog/static/978415382013655540438/

1、关于参数的解释不同

经典估计方法认为待估参数具有确定值,它的估计量才是随机的,如果估计量是无偏的,该估计量的期望等于那个确定的参数;贝叶斯方法认为待估参数是一个服从某种分布的随机变量。

2、所利用的信息不同

经典方法只利用样本信息;贝叶斯方法要求事先提供一个参数的先验分布,即人们对有关参数的主观认识,被称为先验信息,是非样本信息,在参数估计过程中,这些非样本信息与样本信息一起被利用。

3、对随机误差项的要求不同

经典方法,除了最大似然法,在参数估计过程中并不要求知道随机误差项的具体分布形式,但是在假设检验与区间估计时是需要的;贝叶斯方法需要知道随机误差项的具体分布形式。

4、选择参数估计量的准则不同

经典估计方法或者以残差平方和最小,或者以似然函数值最大为准则,构造极值条件,求解参数估计量;贝叶斯方法则需要构造一个损失函数,并以损失函数最小化为准则求得参数估计量。

 

最大似然估计、贝叶斯估计两类参数估计的对比

http://blog.sina.com.cn/s/blog_56c221b00100gjlk.html

最大似然估计:把待估计的参数看作是确定性的量(只是其取值未知),其最佳估计就是使得产生已观察到的样本(即训练样本)的概率为最大的那个值。(即求条件概率密度p(D|)为最大时的$,其中D为样本集,$为条件概率密度分布的参数)。特点:简单适用;在训练样本增多时通常收敛得很好。

最大后验估计(MAPMaxaposterior):p(D|)*p($)取最大值的那个参数向量$,最大似然估计可以理解为当先验概率p($)为均匀分布时的MAP估计器。MAP缺点:如果对参数空间进行某些任意非线性变换,如旋转变换,那么概率密度p($)就会发生变化,其估计结果就不再有效了。)

贝叶斯估计:把待估计的参数看成是符合某种先验概率分布的随机变量;对样本进行观测的过程,就是把先验概率密度转化为后验概率密度,这样就利用样本的信息修正了对参数的初始估计值。典型的效果是:每得到新的观测样本,都使得后验概率密度函数变得更加尖锐,使其在待估参数的真实值附近形成最大的尖峰,这个现象就称为贝叶斯学习过程。

 

最大似然估计(Maximumlikelihoodestimation)

http://www.cnblogs.com/liliu/archive/2010/11/22/1883702.html

最大后验估计(MAP)

http://www.cnblogs.com/liliu/archive/2010/11/24/1886110.html

最大似然估计只考虑某个模型能产生某个给定观察序列的概率,而未考虑该模型本身的概率,这点与贝叶斯估计区别。

最大后验估计根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计

MAPMLE最大区别MAP加入了模型参数本身的概率分布,或者说,MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。

 

总结

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE) - 杰迪武士 - The Temple of JeDi 

贝叶斯估计

          http://wenku.baidu.com/view/420461e4102de2bd9605883c.html

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE) - 杰迪武士 - The Temple of JeDi 

方法比较

参数估计(Parameter Estimation):频率学派(最大似然估计MLE、最大后验估计MAP)与贝叶斯学派(贝叶斯估计BPE) - 杰迪武士 - The Temple of JeDi 

 

其他

最大似然估计&贝叶斯估计

http://blog.sciencenet.cn/blog-291618-392241.html

概率空间的定义为(Omega,F,P)。在概率图模型中,一个问题是从已知的抽样中估计概率测度P通常,有两种估计的方法:一是最大似然估计,一是贝叶斯估计。比如,投硬币的问题,30上,20下,就估计上的概率为3/5,这样的估计可以使似然度最大。而贝叶斯主义者认为还应该有更多的先验知识,比如我们早就知道这样的概率取值为1/2的概率相对最大,加入这样的知识后运用贝叶斯公式估计出来的概率就与最大似然法的结果不同。可以想像当先验知识可靠的时候,这样的估计会更准确的。

形式化一点,投硬币的概率空间为({,},{{},{}},{(,p),(,1-p)})最大似然直接在这样的空间上估计p。而贝叶斯主义者将所有p决定的测度P看成是另一个Omega*,即概率本身是另一个概率空间中的一个采样。这另一个空间有自己的另一套测度P*。比如投币问题中Omega*是所有可能拿到的硬币,显然P*会告诉我们不同的硬币会有不同的p如果这样的P*能够很好的得到,那么这样估计的概率会更有说服力。

那么我想做一些引申,既然一个正反面的概率测度P可以是一个更大的空间中依P*的采样,那么P*本身为什么不是从另一个更大空间中采样出来的呢。比如考虑温度、湿度、表面粗糙度、重力加速度等条件,会得到另一个概率空间Omega**,不同的环境条件决定了各个硬币正面概率的变化,故是这样的空间采样了P*如果我们同样能够清晰描述P**,这显然也是合理且有说服力的。

最大似然的模型,可以叫做零阶模型(名字是我自己杜撰的),而贝叶斯方法的模型可以叫做一阶模型,用同样的方法可以产生二阶、三阶以及更高阶的模型。前提是我们能够清晰的描述这些概率分布是如何从另一个概率分布中采样出来的。

一个问题是,这样的过程可以无限进行吗,任何实际的概率空间都可以这样吗,这样的过程都合理且有意义吗。

我这里想说的是,至少有一种实际的测度,不需要再做这样的泛化了。这样的测度就是宇宙的本质规律,它赋予任何实在的事件以概率,而它不再是根据某个P*采样出来的了。解释有两点:第一,这些规律有唯一的取值,如果某个规律每次测量会变化,那么必有更高的不变的规律解释这样的变化,从而前者不是本质规律,后者才是;第二,如果非要假想有另一种赋值的宇宙规律,而由于我们只可能知道P下的一切,对这样的P*我们不可能有任何认识,所以这样的泛化是无意义的。

形而上学会讨论可能宇宙,会讨论或然宇宙中是否有必然存在物,会讨论宇宙的常数是被如何精巧的设定以至于很幸运地产生了现在的宇宙的样子。我想得出的结论是,除了现在的宇宙外我们一无所知,连宇宙之外的这个规律P*都不知道哪怕一点点,又如何谈论它和他所测量的空间Omega*的性质呢。在这个范围内的任何设定都不会与现实宇宙中的任何现象概率相关,在概率图中他们被我们宇宙的本质规律这个节点阻断了。可能有可能宇宙,但我们的宇宙与这个宇宙无关。

 

第三章模式识别-最大似然估计和贝叶斯参数估计

http://star.sgst.cn/upload/attach/attach200910140408470m9mz6gd83.pdf

http://blog.csdn.net/Hou_Rj/article/details/6866451

哲学对比

举例:设参数为桌子的长度,估计该参数,通过测量得到了不同时刻测量的长度值{x1,x2,…,xn}。

唯物主义的方法:长度是确定的;估计方法有均值、中值等

唯心主义的方法:长度是不确定的,即变量;估计方法给出各个取值的可能性(概率)或者分布。

在参数估计的数学表达上,唯物主义的结果是得到一个确定的值来作为估计的结果。贝叶斯则得到一个概率值来作为估计结果,而必须是变量才有概率意义,这也是贝叶斯将参数做作不确定变量的直接数学表达。

经典学派是唯物主义,从理性出发,认为参数是确定的。贝叶斯学派是唯心学派,从感性出发,不同的测量样本空间确实得到了不同的值,因此是随机变量;

在实际的应用中,贝叶斯的方法比经典学派要好。

 

最大似然/贝叶斯分类

http://blog.sciencenet.cn/blog-291618-392241.html

与分布有关的统计分类方法主要有最大似然/贝叶斯分类。最大似然分类是图像处理中最常用的一种监督分类方法,它利用了遥感数据的统计特征,假定各类的分布函数为正态分布,在多变量空间中形成椭圆或椭球分布,也就是和中个方向上散布情况不同,按正态分布规律用最大似然判别规则进行判决,得到较高准确率的分类结果。否则,用平行六面体或最小距离分类效果会更好。

分类步骤:

1、确定需要分类的地区和使用的波段和特征分类数,检查所用各波段或特征分量是否相互已经位置配准;

2、根据已掌握的典型地区的地面情况,在图像上选择训练区;

3、计算参数,根据选出的各类训练区的图像数据,计算和,确定先验概率;

4、分类,将训练区以外的图像像元逐个逐类代入公式,对于每个像元,分几类就计算几次,最后比较大小,选择最大值得出类别;

5、产生分类图,给每一类别规定一个值,如果分10,就定每一类分别为1,2……10,分类后的像元值便用类别值代替,最后得到的分类图像就是专题图像.由于最大灰阶值等于类别数,在监视器上显示时需要给各类加上不同的彩色;

6、检验结果,如果分类中错误较多,需要重新选择训练区再作以上各步,直到结果满意为止。

这种方法的优点是,对符合正态分布的样本P聚类组而言,是监督分类中较准确的分类器,因为考虑的因素较多;与Mahalanobis距离一样.通过协方差矩阵考虑了类型内部的变化。缺点是,扩展后的等式计算量较大,当输入波段增加时,计算时间相应增加;最大似然是参数形式的,意味着每一输入波段必须符合正态分布;在协方差矩阵中有较大值时,易于对模板分类过头,如果在聚类组或训练样本中的象素分布较分散,则模板的协方差矩阵中会出现大值。

1 0