模式识别（Pattern Recognition）学习笔记（五）——概率密度函数（pdf）的参数估计

来源：互联网发布：孟山都公司知乎编辑：程序博客网时间：2024/05/17 02:46

回顾下贝叶斯决策，它的终极目标是要获取后验概率，而后验概率又可以由先验概率和类条件概率密度两个量估计得到。先验概率的估计相对来说比较简单，一般有两种方法，其一可以用训练数据中各类出现的频率来估计得到；其二可以依靠经验，不管哪种方法都不会很难，而对于类条件概率密度来说，估计往往会难得多，因此对于它的估计会是贝叶斯决策的重点。

有关概率密度函数的估计，统计类的书籍（像概率论与概率统计）中介绍的比较全面，这里只做简要的回顾和温习。另外除了特别说明，我们均假定所有样本都是来自同一类别，即利用同一类的样本来估计本类的类条件概率密度（以下简称PDF）。

PDF的估计方法主要有两大类，参数估计和非参数估计；前者，PDF形式确定，部分或全部参数不确定，因此要利用样本来估计这些未知参数，主要方法有大家都知道的最大似然估计和贝叶斯估计；后者，不仅参数未知，就连PDF的形式也不知道，换句话说，就是当前我们知道的几种分布模型，高斯分布啊，瑞利分布啊神马的，它都不服从，这个情形下，我们就不能单单估计出参数了，而是要首要估计出PDF的数值化模型，这是后面学习的重点，会放在下篇博客学习。

首先，回想下以前大学学概率论时老师讲的参数估计，神马点估计啊，区间估计啊，对比下我们的问题，显然应该用点估计，对不对，上面也说了大家最熟悉的最大似然估计和贝叶斯估计了。

最大似然估计：在参数空间中找到一个能够使得似然函数l(theta)极大化的theta值，把它当做最大似然估计量，其中，最大化的方法当然是求偏导；

贝叶斯估计：尽管很多实际情况下它与最大似然估计相同，但是他们处理问题的view是不同的；根本区别就是，前者将待估计的参数当做一个确定量，而后者却把它当做一个随机量。这里提一下贝叶斯学习（Bayesian Learning）这个概念，意思就是利用贝叶斯估计对PDF直接进行迭代估计的一种学习策略。回到贝叶斯估计上来，为什么要叫他贝叶斯估计，它跟贝叶斯决策又有什么区别和联系，哈哈，联系当然很大，其实在贝叶斯估计中，我们是把对参数的估计当做是一个贝叶斯决策的，不同的只是这里决策的不是离散的类别，而是参数的value，并且是在一个连续的参数空间里做决策。

（注意：贝叶斯估计中，我们本来的目的并不是估计PDF的参数，而是估计概率密度函数p(x|theta)本身，当只有在问题的PDF形式已知时，才转化为估计参数。另外在估计参数时，与最大似然估计不同，并非直接把似然函数最大或者是后验概率最大的值拿来当做对样本PDF参数的估计，而是根据把所有可能的参数值都考虑进来，用他们的似然函数作为加权来平均出一个对参数的估计值。）

非参数估计，是模式识别中比较重要的知识点，它是一种model-free的估计方法，简单好用，并且适合高维估计，这篇博客不准备复习它，留在下一篇吧，给自己留点动力。。

0 0