贝叶斯决策理论(一)

来源:互联网 发布:风险管理矩阵图 编辑:程序博客网 时间:2024/05/02 00:57
以后都发原创。初入模式方向,完全小白一个。做点笔记,欢迎斧正。

以癌细胞的识别为例,说明贝叶斯决策的思想。 假设细胞分为正常细胞和癌细胞,现在需要设法区分。
观察到细胞的特征有d个,这特征构成了一个d维的特征向量X
决策的任务:根据给定的特征向量X将细胞分类为正常细胞和癌细胞,这两种分别记为


概率估计的2层含义
1.各个属性在统计意义上的比例,称之为先验概率。例如正常细胞与异常细胞在统计意义上的比例,记为

2.各个属性的概率密度函数,记为 
例如,正常细胞和癌细胞都满足正态分布,则
 

 

图1 各属性的概率密度函数 

先验概率分类器
不使用特征向量,直接用先验概率进行分类。例如,根据统计实验得到正常细胞所占比例大,即

分类依据:先验概率最大值。
因此我们直接认为所有待检测细胞是正常细胞。
从统计意义上看,这样的判断确实发生误判的概率较小。但是完全没有达到真正分类的目的。
 
先验概率与后验概率
先验概率仅针对事件出现的可能性,而不考虑任何附加条件。
如前所述,先验概率没有达到分类的目的。因此还必须利用对细胞观测得到的特征向量X
先考虑到观测到的特征向量X,再来判断样本属于各类的概率,称之为后验概率,由贝叶斯公式得
 
2类错误与平均错误率
本为第一类却判为第二类;本为第二类却判为第一类。分别记为
                
 


图2 各属性的后验概率

这两类分别对应图2中的左右两个阴影区域。
注意:图2 中的纵坐标意义已经与图1 有本质不同。虽然图像形状相同,但图2 表现的是后验概率。

平均错误率:在连续条件下,由观测向量X作出决策,在全部可能的取值范围内,识别错误的概率均值,即

基于最小错误率的贝叶斯决策
图2中阴影部分的面积即为平均错误率。要使得阴影面积最小,必须取粉色虚线为决策分界面,即


由贝叶斯公式可以得到后验概率分布图,可以清楚看到最小错误率的分类界面
分类依据:后验概率最大值。
 


图3 后验概率分布 
 
因此平均错误率可以表示为如下
 

最小错误率的贝叶斯决策就是依据后验概率的最大值进行分类的。如此设计的最小错误率贝叶斯决策可以使得每次错判的概率最小,平均错误率就是各处错误率的统计平均,处处最小的平均值自然也是最小了。

基于最小错误率的分类规则的等价形式
























0 0
原创粉丝点击