模式识别读书笔记1 基于贝叶斯决策理论的分类器

来源:互联网 发布:上海大学乐乎 编辑:程序博客网 时间:2024/06/05 16:21

1. 引言

  模式识别是根据对象特征值将其分类,下面介绍的方法以特征值的统计概率为基础。本文是《模式识别》第2章的笔记。

1.1 为什么可用Bayes决策理论分类?

  人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计,这类推理称为概率推理。贝叶斯推理的问题是条件概率推理问题,这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。

(1)样本的不确定性

  1. 样本从总体中抽取,特征值都是随机变量,在相同条件下重复观测取值不同,故x为随机向量
  2. 特征选择的不完善引起的不确定性。
  3. 测量中有随机噪声存在

(2)样本的可分性

  1. 当各类模式特征之间有明显的可分性时,可用直线或曲线(面)设计分类器,有较好的效果。
  此分类决策为确定性分类决策,当样本属于某类时,其特征向量一定会落入对应的决策区域中,当样本不属于某类时,其特征向量一定不会落入对应的决策区域中。现有待识别的样本特征落入了某决策区域中,则它一定属于对应的类。
  2. 当各类别出现混淆现象时,则分类困难。这时需要采用统计方法,对模式样本的统计特性进行观测,分析属于哪一类的概率最大,然后按照某种判据分类,如分类错误发生的概率最小,或者是分类的风险最小。
  此分类决策为随机性分类决策。特征空间中有多个类,当样本属于某类时,其特征向量会以一定的概率取得不同的值,现有待识别的样本特征向量取得某值,则它按不同概率有可能属于不同的类,分类决策将它按概率的大小划归到某一类别中。

这里写图片描述

1.2 三个重要的概率和概率密度

1.2.1 先验概率 P(ωi)

  由样本的先验知识得到先验概率,可由训练集样本估算出来。
例如,三类一共10个训练样本,属于w1的有2个,属于w2的有3个,属于w4的有5个,则先验概率:

P(ω1)=0.2P(ω2)=0.3P(ω3)=0.5

1.2.2 类条件概率密度函数 p(x|ωi)

  类条件概率密度函数用来描述每一类中特征向量的分布情况。是样本 xωi 类条件下,出现的概率密度分布函数,也称 p(x|ωi)ωi 关于 x 的似然函数。

这里写图片描述

1.2.3 后验概率 p(ωi|x)

  后验概率为某个样本 x , 属于 ωi 类的概率,i=1,c ωi 是离散变量
   如果用先验概率 P(ωi) 来确定待分样本的类别,依据是非常不充分的,需用类条件密度 p(x|ωi)来修正

2. 贝叶斯决策理论

   贝叶斯决策理论是用概率统计方法研究决策问题。其基本思想是: 已知类条件概率密度和先验概率,然后利用贝叶斯公式转换成后验概率,根据后验概率大小进行决策分类。

2.1 贝叶斯分类

2.1.1 贝叶斯公式

概率推理
  如有条件B,则可能会出现结果A;现出现结果A,则条件B有存在的可能。
   设试验E的样本空间为S, AE的事件,B1,B2,BcS的一个划分,且P(A)>0,P(Bi)>0,则

P(Bi|A)=P(A|Bi)P(Bi)cj=1P(A|Bj)P(Bj)=P(A|Bi)P(Bi)P(A)

其中
   P(Bi|A)为后验概率,表示事件A(结果A)出现后,各不相容的条件Bi 存在的概率,它是在结果出现后才计算得到的,因此称为“后验”。
   P(A|Bj)为类条件概率,表示在各条件Bi存在时,结果事件A发生的概率。
   P(Bj) 称为先验概率,表示各不相容的条件Bi 出现的概率,它与结果A是否出现无关,仅表示根据先验知识或主观推断。
  P(A)表达了结果A在各种条件下的总体概率。
这里A对应特征向量 x,Bi对应ωi

2.1.2 贝叶斯决策理论的已知条件

  1. 已知决策分类的类别数为 c ,各类别的状态为:

ωi,i=1,c

  2. 已知各类别总体的概率分布(各个类别的先验概率和类条件概率密度函数)
P(ωi),p(x|ωi),i=1,,c

2.1.3 贝叶斯决策理论欲解决的问题

   如果在特征空间中观察到某一个(随机)向量,

x=(x1,x2,,xd)T

那么,应该将 x 分到哪一个类才是最合理的?

2.2 各种贝叶斯分类器

2.2.1 最小错误率贝叶斯分类器

  当已知类别出现的先验概率 P(ωi) 和每个类中的样本分布的类条件概率密度P(x|ωi)时,可以求得一个待分类样本属于每类的后验概率 P(ωi|x)

决策规则:
    两类问题中,当P(ωi|x)>P(ωj|x), 判决 xωi;
    多类问题中,当P(ωi|x)=max1jcP(ωj|x)时,判决 xωi;

  上述的分类决策规则实为“最大后验概率分类器”,它与“最小错误率分类器”的关系可以简单分析如下:
什么是分类错误率呢?:
  分类错误率是指一个分类器按照其分类决策规则对样本进行分类,在结果中发生错误的概率,此处记为 P(e|x),即在随机向量x值已知的情况下,发生分类错误的概率。
   对于随机向量x 的每一个取值,都存在一个分类错误率 P(e|x=xi)
对于总体而言,错误率P(e)即为每一点分类错误率对随机向量x的期望,即:

P(e)=Ex(P(e|x))=P(e|x)p(x)dx

对于二分类而言:
P(e|x)={P(ω1|x),P(ω2|x),P(ω2|x)>P(ω1|x)P(ω1|x)>P(ω2|x)

P(e)=P(e|x)p(x)dx=R1P(ω2|x)p(x)dx+R2P(ω1|x)p(x)dx

其中,R1为判定为ω1 的随机向量x的区域,R2为判定为ω2 的随机向量x的区域。即为图中阴影部分的区域面积。
最小化错误率即对于每一个判定区域,取得令P(e|x) 值最小的类,则阴影区域面积最小。

这里写图片描述

对于c类的多分类而言:
  正确的分类结果是未知的,但是判定错误时,正确结果一定在除了判定类别的其他类别中, 所以:
P(e|x)=1P(ωi|x)P(ωi|x)=max1jcP(ωj|x)

P(e)=P(e|x)p(x)dx=i=1cRi(1P(ωi|x))p(x)dx

   对每个点都采取相同的策略,取最大后验概率,即最大后验概率分类器即为最小分类错误分类器。

  直接估算后验概率比较困难,通常利用贝叶斯公式,用先验概率和似然函数计算出来。

P(ωi|x)=P(ωi)p(x|ωi)p(x)

  而p(x) 只与数据集的分布有关,与类别ωi无关,最大后验概率,即为最大P(ωi)p(x|ωi)

最大后验概率的其他等价形式
  1. p(x|ωi)P(ωi)=max1jnp(x|ωj)P(ωj)时,判决 xωi;

  2. 对于所有的类别ωj(ji) 都有,l(x)=p(x|ωi)p(x|ωj)>P(ωj)P(ωi)
   l(x)称为似然比,所以又叫最大似然比。
   P(ωj)P(ωi) 称为似然比阈值。
  3. h(x)=ln[l(x)]=ln(p(x|ωi))+ln(p(x|ωj))<ln(P(ωi)P(ωj))

2.2.2 最小风险贝叶斯分类器

  对于不同类别,产生错误的风险是不一样的,比如将良性肿瘤误判为恶性肿瘤和将恶性肿瘤误判为良性肿瘤,显然后者造成的结果更严重,所以期望后者的分类错误率要低一些,即提高后者在分类错误计算中所占的比例。
定义 权重为 λij,表示把 ωi 错判为 ωj 类的惩罚因子(通常 λii=0)。
定义 条件期望损失为 R(ai|x), 表示在给定x , 决策 ai , 此时的条件期望损失,即后验概率加权和(其他类错判为 ωi 的加权损失):

r(ai|x)=Eω|x(λji)=j=1cλjiP(ωj|x),i=1,2,a

其中ai表示一种决策,表示判定随即向量 x 属于 ωi 类, 一共有 a=c 种决策(可以拒绝则为 a=c+1 种)。由于 x 是随机向量的观察值,不同的 x 采取不同决策 ai ,其条件风险的大小是不同的。

   决策a可看成随机向量 x 的函数,记为 a(x) ,它本身也是一个随机变量。
定义 期望风险为

R=Ex(r(a(x)|x))=r(a(x)|x)p(x)dx

  期望风险R反应对整个特征空间上所有的x的取值都采用相同的决策 a(x) 所带来的平均风险,而条件风险 r(ai|x) 只反映观察到某一 x 的条件下采取决策 ai 所带来的风险。
   如果采取每个决策行动 ai 使条件风险 R(ai|x) 最小,则对所有的 x 作出决策时,其期望风险R 也必然最小

决策规则:
    多类问题中,当R(ai|x)=min1jcR(aj|x)时,判决 xωi;
决策步骤:
  1. 已知 P(ωj),p(x|ωj),λij,i,j=1,2,,c(不考虑拒绝策略 a = c)
  2. 计算后验概率 P(ωj|x),j=1,2,,c (根据贝叶斯公式)
  3. 计算 r(ai|x)=cj=1λjiP(ωj|x) (计算条件风险)
  4. R(ai|x)=min1jcR(aj|x),则 a=ai (决策)

2.3 正态分布的贝叶斯分类器

2.3.1 正态分布

   正态分布是自然界中最常见的概率分布形式,其定义为:

p(x)=12πσe(xμ)22σ2,xR

   则称X服从参数为 σ,μ 的正态分布或高斯分布,记为 N(μ,σ2)
   其分布函数为
F(x)=12πσxe(tμ)22σ2dt

   其中:
     μ=E(x)=xp(x)dx (均值或数学期望)
     σ2=E[(xμ)2]=(xμ)2p(x)dx (方差)

2.3.2 多维正态分布条件下的贝叶斯分类

   对于 d 维正态分布,其概率密度公式为:

p(x)=1(2π)d2|Σ|12exp[12(xμ)TΣ1(xμ)],xR

   其中:
     x=(x1,x2,xd)Td 维特征向量
     μ=(μ1,μ2,μd)T, d 维均值向量
     Σd×d 维协方差矩阵,Σ1Σ 的逆矩阵,|Σ|Σ 的行列式
     Σ=[σij]d×dij,σij为协方差,否则为方差)

这里写图片描述

   对于最小错误率贝叶斯分类器,它把样本划分到后验概率最大的那一类中,因此可以定义每一类的判别函数为:
gi(x)=P(ωi|x)=P(x|ωi)P(ωi),i=1,2,,c

假设 样本空间被划分到c 个类别决策区域,则分类判决规则为:
  对于 gi(x)>gj(x),i=1,2,,c,ji,则xωi
此时任两个类别之间的决策边界由方程:gi(x)=gj(x)决定
判别函数中,先验概率 P(ωi) 是一个与特征向量无关的常量,类条件概率密度 p(x|ωi) 则满足一定的概率分布。
假设 p(x|ωi) 符合 d 维正态分布,则判别函数为:
gi(x)=P(ωi)(2π)d2|Σi|12exp[12(xμi)TΣ1i(xμi)]

该判别函数含有指数,不方便计算,考虑到对数函数是单调递增函数,可对原判别函数取对数后作为新的判别函数,即:
gi(x)=lnP(ωi)+ln[1(2π)d2|Σi|12exp[12(xμi)TΣ1i(xμi)]]

=lnP(ωi)12(xμi)TΣ1i(xμi)d2ln2π12ln|Σi|

ci=d2ln2π12ln|Σi|
gi(x)=12(xμi)TΣ1i(xμi)+lnP(ωi)+ci
展开为:
gi(x)=12xTΣ1ix+12xTΣ1iμi12μTiΣ1iμi+12μTiΣ1ix+lnP(ωi)+ci

特殊情况:
1. Σi=Σj=Σ
xTΣ1ix 与类别无关,在决策面方程中与常量ci效果相同,可删除。
因为Σ 是对称矩阵,则
xTΣ1iμi=i=1dμij=1dxjσji=i=1dμij=1dxjσij=μTiΣ1x

gi(x)=12μTiΣ1x12μTiΣ1iμi+12μTiΣ1ix+lnP(ωi)

gi(x)=μTiΣ1x12μTiΣ1iμi+lnP(ωi)

ωi=Σ1μi,ωi0=lnP(ωi)12μTiΣ1iμi
gi(x)=ωTix+ωi0
gi(x)x的线性函数
P(ωi)P(ωj)
  决策规则:gi(x)=ωTix+ωi0=max1jcωTix+ωi0,则 xωi
  决策面方程: WT(xx0)=0,
其中W=Σ1(μiμj),x0=12(μi+μj)lnP(ωi)P(ωj)(μiμj)(μiμj)TΣ1(μiμj)
-向量 x0 与向量 μiμj 平行
-向量 WT 与决策平面正交

这里写图片描述

P(ωi)=P(ωj)
W=Σ1(μiμj),x0=12(μi+μj)
x0为连接均值的线段中点
μiμj与决策平面正交
2. Σi=σI2
gi(x)=12σ2(xμi)T(xμi)+lnP(ωi)

(1) P(ωi)=P(ωj)=k
gi(x)=12σ2(xμi)T(xμi)
  决策规则:gi(x)=min1jc12σ2(xμi)T(xμi),则 xωi
又称为 最小距离分类器
(2) P(ωi)P(ωj)
如果待分类的向量x同两类均值向量的欧氏距离相等,则归入先验概率大的那类。
这里写图片描述

3.朴素贝叶斯分类器

  为了保证概率密度函数估计的准确性,训练样本的数量 N 一定要足够大,样本数量随着特征空间维数 l 的增加呈指数增长。因为 x ω 的组合很多,假设 xj 可能取值 Sj 个, ω 可能取值 K 个,那么样本数量是 Klj=1Sj。特别地,当 xj=S,那么数量为 KSl
  由于 数据量不足,不得不降低一些概率密度估计所要求的准确度。在此情况下, 假设每个特征值 xj,j=1,2,l 统计独立的,可以得到:

p(x|ωi)=p(x1,x2,,xl|ωi)=j=1lp(xj|ωi),i=1,2,c

这种假设,p(xi|ωi) 需要用 S 个训练样本来估计概率密度,使得训练样本数量减少到了 Sl , 这种分类方式就是所谓的 朴素贝叶斯分类器
决策规则
ωc=argmaxωij=1lp(xj|ωi),i=1,2,,c

4.半朴素贝叶斯分类器

  属性条件独立性假设在现实中往往很难成立。于是,人们尝试着对属性条件独立性假设进行一定程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”的学习方法。
  “独依赖估计”是半朴素贝叶斯最常用的一种策略,所谓独依赖就是假设每个属性在类别之外最多依赖于一个其他属性,即

P(c|x)=P(c)p(x)i=1dp(xi|c,pai)

   其中 pai 是属性 xi 所依赖的属性,称为 xi 的父属性。(通常属性依赖不构成环)
概率估计
   P(c|xi)=|Dc,xi|+1|D|+Ni
   P(xj|c,xi)=|Dc,xi,xj|+1|Dc,xi|+Nj
其中,Ni为 第i个属性可能的取值数,Dc,xi为类别为c且在第i个属性上取值为xi的样本集合,Dc,xi,xj为类别为c且在第i个属性上取值为xi,在第j个属性上取值为xj的样本集合

5.贝叶斯网络

   现考虑属性间的高阶依赖来进一步提升泛化性能。也就是说将属性pai替换为包含k个属性的集合pai。此时引入了贝叶斯网
   贝叶斯网借助了有向无环图来刻画属性间的依赖关系,并使用条件概率表来描述属性的联合概率分布。一个贝叶斯网B由结构G和参数Θ两部分构成,即 B=<G,Θ>,网络结构G是一个有向无环图,其每个结点对应于一个属性,若两个属性有直接依赖关系,则它们由一条边连接起来;参数 Θ 定量描述这种依赖关系,假设属性xiG中的父节点集为 πi,则Θ包含了每个属性的条件概率表 θxi|πi=PB(xi|πi)。

联合概率分布定义为:

PB(x1,x2,,xd)=i=1dPB(xi|πi)

结构:

这里写图片描述

同父结构: 给定父节点 a 的取值,则 bc 条件独立。
P(a,b,c)=P(a)P(b|a)P(c|a)
P(b,c|a)=P(a,b,c)P(a)=P(a)P(b|a)P(c|a)P(a)=P(b|a)P(c|a)
V型结构 : a依赖于b,c的联合分布。
P(a,b,c)=P(b)P(c)P(a|b,c)
P(b,c)=P(a,b,c)P(a|b,c)=P(b)P(c)
顺序结构: 给定 a 的取值,则 bc 条件独立。
P(a,b,c)=P(c)P(a|c)P(b|a)
P(b,c|a)=P(a,b,c)P(a)=P(c)P(a|c)P(b|a)P(a)=P(a,c)P(b|a)P(a)=P(c|a)P(b|a)

学习:
给定训练集D={x1,x2,,xm},学习过程如下:

mins(B|D)=minf(θ)|B|LL(B|D)

LL(B|D)=i=1mlogPB(xi)

f(θ)表示每个参数θ所需的字节数,|B|为贝叶斯网的参数个数。

6.未知概率密度函数的估计

6.1 最大似然估计

目标: 估计 p(x|ωi)
样本集: X=x1,x2,xN 属于ωi类的样本
假设每一类中的数据不影响其他类参数的估计,可以各类独立地解决这样的问题。
假设不同样本之间具有统计的独立性:

p(X;θ)=p(x1,x2,,xN;θ)=k=1Np(xk;θ)

利用最大似然法得到最优参数:
θML=argmaxθk=1Np(xk;θ)

令似然函数对θ的梯度为0
Nk=1p(xk;θ)θ=0

对数化:
L(θ)=lnk=1Np(xk;θ)

求导:
L(θ)θ=k=1Nlnp(xk;θ)θ=k=1N1p(xk;θ)p(xk;θ)θ=0

6.2 最大后验概率估计(贝叶斯估计)

最大似然估计中,认为 θ 是确定存在的参数,是不变的。但是θ是个随机向量,并且有其先验概率。

p(θ|X)=p(θ)p(X|θ)p(X)

计算最大值点
θMAP:θp(θ|X)=0

p(x)θ无关,则
θ(p(θ)p(X|θ))=0

6.3 贝叶斯推论

6.4 最大熵估计

熵是关于事件不确定因素的度量方法,是特征向量的随机性度量。如果p(x)是一个密度函数,相关的熵 H 定义为

H=xp(x)lnp(x)dx

最大熵估计是针对给定的约束条件使熵最大。
栗子
x1xx2时,随即变量 x是非零值,其余情况 x=0.计算密度函数的最大熵估计。
约束条件
x2x1p(x)dx=1

用拉格朗日乘数,相应的最大化
HL=x2x1p(x)(lnp(x)λ)dx

Hlp(x)=x2x1{(lnp(x)λ)+1}dx

Hlp(x)=0
得到
p(x)=exp(λ1)

利用x2x1p(x)dx=1
得到exp(λ1)=1x2x1
因此p(x)=1x2x1
没有其他约束,所有点服从均匀分布。

6.5 混合模型的参数估计

6.5.1 混合模型介绍

假设一个 J 分布符合 p(x),则这个模型隐含的假设是每一个点 x 都可能以概率 Pj,j=1,2,,J 属于 J 模型分布。

p(x)=j=1Jp(x|j)Pj

其中
Jj=1Pj=1,xp(x|j)dx=1
在最大似然估计中,已知类标签,使问题成为每一类独立的最大似然估计。没有标签信息使现在的任务成为一个典型的具有不完全数据集的任务。

6.5.2 EM算法

混合模型的最大似然估计为
θ=argmaxθlnXP(x;θ)
=argmaxθXlnP(x;θ)
=argmaxθXlnZP(x,z;θ)
和的求导比较复杂(log(f1(x)+f2(x)+,+fn(x)))
利用 Jensen 不等式
如果 f 是凸函数,X 是随机变量,那么 E[f(x)]f(E[x])
特别地,如果f是严格凸函数,当且仅当 X 是常量,上式取等号。

这里写图片描述

X是随机变量,有0.5的概率是 a,0.5的概率是 b

f(x)是凸函数
θ=argmaxθXlnZP(x,z;θ)
=argmaxθXlnZQ(z;θ)P(x,z;θ)Q(z;θ)
=argmaxθXlnZEQ[P(x,z;θ)Q(z;θ)]
argmaxθXZEQ[ln(P(x,z;θ)Q(z;θ))]
=argmaxθXZQ(z;θ)ln(P(x,z;θ)Q(z;θ))
P(x,z;θ)Q(z;θ)=c(c为任意常数)才取等号
ZQ(z;θ)=1
Q(z;θ)=p(x,z;θ)c=p(x,z;θ)cZQ(z;θ)=p(x,z;θ)Zp(x,z;θ)p(x,z;θ)p(x;θ)=p(z|x;θ)
Q为给定 x 下,z的后验概率
EM算法:
θ=argmaxθXZQ(z;θ)ln(P(x,z;θ)Q(z;θ))
=argmaxθXZ(Q(z;θ)lnP(x,z;θ)Q(z;θ)ln(Q(z;θ)))
第二项与θ无关
=argmaxθXZ(Q(z;θ)lnP(x,z;θ))
=argmaxθXZ(EQlnP(x,z;θ))
E: 建立L(θ)的下界
M:最大化L(θ)

6.6 非参数估计

6.6.1 Parzen 窗法

6.6.2 k近邻密度估计

7.参考资料

1.https://baike.baidu.com/item/贝叶斯决策理论/9939173?fr=aladdin
2.https://wenku.baidu.com/view/6d35ff4d767f5acfa1c7cd22.html
3.https://wenku.baidu.com/view/dcfdf6c0b8f67c1cfad6b83a.html
4.https://wenku.baidu.com/view/eaf03531ee06eff9aef80739.html
5.https://wenku.baidu.com/view/1eb4d02da76e58fafab0037a.html
6.http://blog.csdn.net/yangleo1987/article/details/53289387
7.《模式识别》Sergios Theodoridis,Konstantinos Koutroumbas 第四版
8.http://www.hankcs.com/ml/naive-bayesian-method.html