模式识别（Pattern Recognition）学习笔记（三）——最小错误率贝叶斯决策

来源：互联网发布：php接口开发实例代码编辑：程序博客网时间：2024/06/04 17:50

转载出处：http://blog.csdn.net/eternity1118_。

模式识别问题中，我们分类时最希望分类错误率可以降到最低，因此从这个目标出发，得到的分类决策就被称作最小错误率贝叶斯决策，该决策规则可写为：

(1)

1.两类决策：

式(1)中，对于所有x，P(e|x)和p(x)均非负，于是决策可以转化为对所有x最小化P(e|x)得到;根据贝叶斯决策理论可知，使错误率最小的决策就是使后验概率最大的决策，因此最小错误率贝叶斯决策可写为：

(2)

（注：在无特殊说明下，通常我们所说的贝叶斯决策均是指最小错误率贝叶斯决策。）

根据后验概率的贝叶斯公式，可以得到最小错误率贝叶斯决策的不同等价表示：

a.如果P(wi|x) = maxP(wj|x),j = 1,2；那么x属于wi类；

b.同样的，由于贝叶斯公式中分母是一样的，因此可以简化的只比较分子，可得：如果p(x|wi)P(wi) = max(p(x|wj)P(wj)),j = 1,2；那么x属于wi类；

c.进一步地，由于先验概率是已知的，相当于常量，所以可以进一步写成比值的形式： (3)

其中具体推导如下：

式(3)中，类条件概率密度p(x|wi)反映了在wi类中观察到特征值x的相对可能性，也成似然度（likelihood），因此l(x)被称作似然比（likelihood ratio）。

d.还可以用负对数形式来表示：

首先，假设该两类问题（为了简单，假设为只有一个特征）的后验概率曲线分布如图：

对于两类问题，有P(w1|x) + P(w2|x) = 1;上图可以看出，图中的t位置就是决策的分界线，样本落在t左边就属于第一类，反之属于第二类；t位置的分界线叫做决策边界或分类线（多维情况下叫做决策面或分类面），它将特征空间划分为属于多个不同类的区域。

设两类决策区域分别为R1，R2，那么分类出现错误的概率就是属于第一类的样本却被分到了R2中，以及属于第二类的样本却被分到了R1中的概率和：

（4）

式(4)中可以发现，错误率就是两种错误率P1(e)和P2(e)对先验概率作为权重的加权就和得到的；

对于多类问题的决策，思路跟两类问题类似，不同的只是计算量加重了许多；可以把每一类的后验概率当做是该类的一个判别函数gi(x),决策的过程就是各类的判别函数进行比较，最后取最大的那个；对于一个有C类分类的问题，平均错误率应该由C(C-1)项加权求和，由于计算量太大，计算过程略了。

另外，为了节省时间，可以计算正确率，然后用1减去正确就是错误率，正确率的计算公式为：

1 0