模式识别(Pattern Recognition)学习笔记(五)——概率密度函数(pdf)的参数估计

来源:互联网 发布:孟山都公司知乎 编辑:程序博客网 时间:2024/05/17 02:46

       回顾下贝叶斯决策,它的终极目标是要获取后验概率,而后验概率又可以由先验概率和类条件概率密度两个量估计得到。先验概率的估计相对来说比较简单,一般有两种方法,其一可以用训练数据中各类出现的频率来估计得到;其二可以依靠经验,不管哪种方法都不会很难,而对于类条件概率密度来说,估计往往会难得多,因此对于它的估计会是贝叶斯决策的重点。

       有关概率密度函数的估计,统计类的书籍(像概率论与概率统计)中介绍的比较全面,这里只做简要的回顾和温习。另外除了特别说明,我们均假定所有样本都是来自同一类别,即利用同一类的样本来估计本类的类条件概率密度(以下简称PDF)。

        PDF的估计方法主要有两大类,参数估计和非参数估计;前者,PDF形式确定,部分或全部参数不确定,因此要利用样本来估计这些未知参数,主要方法有大家都知道的最大似然估计和贝叶斯估计;后者,不仅参数未知,就连PDF的形式也不知道,换句话说,就是当前我们知道的几种分布模型,高斯分布啊,瑞利分布啊神马的,它都不服从,这个情形下,我们就不能单单估计出参数了,而是要首要估计出PDF的数值化模型,这是后面学习的重点,会放在下篇博客学习。

        首先,回想下以前大学学概率论时老师讲的参数估计,神马点估计啊,区间估计啊,对比下我们的问题,显然应该用点估计,对不对,上面也说了大家最熟悉的最大似然估计和贝叶斯估计了。

        最大似然估计:在参数空间中找到一个能够使得似然函数l(theta)极大化的theta值,把它当做最大似然估计量,其中,最大化的方法当然是求偏导;

       贝叶斯估计:尽管很多实际情况下它与最大似然估计相同,但是他们处理问题的view是不同的;根本区别就是,前者将待估计的参数当做一个确定量,而后者却把它当做一个随机量。这里提一下贝叶斯学习(Bayesian Learning)这个概念,意思就是利用贝叶斯估计对PDF直接进行迭代估计的一种学习策略。回到贝叶斯估计上来,为什么要叫他贝叶斯估计,它跟贝叶斯决策又有什么区别和联系,哈哈,联系当然很大,其实在贝叶斯估计中,我们是把对参数的估计当做是一个贝叶斯决策的,不同的只是这里决策的不是离散的类别,而是参数的value,并且是在一个连续的参数空间里做决策。

  (注意:贝叶斯估计中,我们本来的目的并不是估计PDF的参数,而是估计概率密度函数p(x|theta)本身,当只有在问题的PDF形式已知时,才转化为估计参数。另外在估计参数时,与最大似然估计不同,并非直接把似然函数最大或者是后验概率最大的值拿来当做对样本PDF参数的估计,而是根据把所有可能的参数值都考虑进来,用他们的似然函数作为加权来平均出一个对参数的估计值。)

       非参数估计,是模式识别中比较重要的知识点,它是一种model-free的估计方法,简单好用,并且适合高维估计,这篇博客不准备复习它,留在下一篇吧,给自己留点动力。。



0 0
原创粉丝点击