模式识别(Pattern Recognition)学习笔记(三)——最小错误率贝叶斯决策

来源:互联网 发布:php接口开发实例代码 编辑:程序博客网 时间:2024/06/04 17:50

  转载出处:http://blog.csdn.net/eternity1118_。


模式识别问题中,我们分类时最希望分类错误率可以降到最低,因此从这个目标出发,得到的分类决策就被称作最小错误率贝叶斯决策,该决策规则可写为:

                    (1)

1.两类决策:

        式(1)中,对于所有x,P(e|x)和p(x)均非负,于是决策可以转化为对所有x最小化P(e|x)得到;根据贝叶斯决策理论可知,使错误率最小的决策就是使后验概率最大的决策,因此最小错误率贝叶斯决策可写为:

              (2)

(注:在无特殊说明下,通常我们所说的贝叶斯决策均是指最小错误率贝叶斯决策。)

根据后验概率的贝叶斯公式,可以得到最小错误率贝叶斯决策的不同等价表示:

     a.如果P(wi|x) = maxP(wj|x),j = 1,2;那么x属于wi类;

     b.同样的,由于贝叶斯公式中分母是一样的,因此可以简化的只比较分子,可得:如果p(x|wi)P(wi) = max(p(x|wj)P(wj)),j = 1,2;那么x属于wi类;

     c.进一步地,由于先验概率是已知的,相当于常量,所以可以进一步写成比值的形式:       (3)

其中具体推导如下:


       式(3)中,类条件概率密度p(x|wi)反映了在wi类中观察到特征值x的相对可能性,也成似然度(likelihood),因此l(x)被称作似然比(likelihood ratio)。

       d.还可以用负对数形式来表示:


2.错误率分析

    两类问题:

      首先,假设该两类问题(为了简单,假设为只有一个特征)的后验概率曲线分布如图:

       对于两类问题,有P(w1|x) + P(w2|x) = 1;上图可以看出,图中的t位置就是决策的分界线,样本落在t左边就属于第一类,反之属于第二类;t位置的分界线叫做决策边界或分类线(多维情况下叫做决策面或分类面),它将特征空间划分为属于多个不同类的区域。

       设两类决策区域分别为R1,R2,那么分类出现错误的概率就是属于第一类的样本却被分到了R2中,以及属于第二类的样本却被分到了R1中的概率和:

              (4)

式(4)中可以发现,错误率就是两种错误率P1(e)和P2(e)对先验概率作为权重的加权就和得到的;

多类问题:

       对于多类问题的决策,思路跟两类问题类似,不同的只是计算量加重了许多;可以把每一类的后验概率当做是该类的一个判别函数gi(x),决策的过程就是各类的判别函数进行比较,最后取最大的那个;对于一个有C类分类的问题,平均错误率应该由C(C-1)项加权求和,由于计算量太大,计算过程略了。

       另外,为了节省时间,可以计算正确率,然后用1减去正确就是错误率,正确率的计算公式为:



1 0