1. 引言
模式识别是根据对象特征值将其分类,下面介绍的方法以特征值的统计概率为基础。本文是《模式识别》第2章的笔记。
1.1 为什么可用Bayes决策理论分类?
人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计,这类推理称为概率推理。贝叶斯推理的问题是条件概率推理问题,这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。
(1)样本的不确定性
1. 样本从总体中抽取,特征值都是随机变量,在相同条件下重复观测取值不同,故x为随机向量。
2. 特征选择的不完善引起的不确定性。
3. 测量中有随机噪声存在
(2)样本的可分性
1. 当各类模式特征之间有明显的可分性时,可用直线或曲线(面)设计分类器,有较好的效果。
此分类决策为确定性分类决策,当样本属于某类时,其特征向量一定会落入对应的决策区域中,当样本不属于某类时,其特征向量一定不会落入对应的决策区域中。现有待识别的样本特征落入了某决策区域中,则它一定属于对应的类。
2. 当各类别出现混淆现象时,则分类困难。这时需要采用统计方法,对模式样本的统计特性进行观测,分析属于哪一类的概率最大,然后按照某种判据分类,如分类错误发生的概率最小,或者是分类的风险最小。
此分类决策为随机性分类决策。特征空间中有多个类,当样本属于某类时,其特征向量会以一定的概率取得不同的值,现有待识别的样本特征向量取得某值,则它按不同概率有可能属于不同的类,分类决策将它按概率的大小划归到某一类别中。
1.2 三个重要的概率和概率密度
1.2.1 先验概率 P(ωi)
由样本的先验知识得到先验概率,可由训练集样本估算出来。
例如,三类一共10个训练样本,属于w1的有2个,属于w2的有3个,属于w4的有5个,则先验概率:
P(ω1)=0.2,P(ω2)=0.3,P(ω3)=0.5
1.2.2 类条件概率密度函数 p(x|ωi)
类条件概率密度函数用来描述每一类中特征向量的分布情况。是样本 x 在 ωi 类条件下,出现的概率密度分布函数,也称 p(x|ωi) 为 ωi 关于 x 的似然函数。
1.2.3 后验概率 p(ωi|x)
后验概率为某个样本 x , 属于 ωi 类的概率,i=1,……,c ωi 是离散变量
如果用先验概率 P(ωi) 来确定待分样本的类别,依据是非常不充分的,需用类条件密度 p(x|ωi)来修正。
2. 贝叶斯决策理论
贝叶斯决策理论是用概率统计方法研究决策问题。其基本思想是: 已知类条件概率密度和先验概率,然后利用贝叶斯公式转换成后验概率,根据后验概率大小进行决策分类。
2.1 贝叶斯分类
2.1.1 贝叶斯公式
概率推理:
如有条件B,则可能会出现结果A;现出现结果A,则条件B有存在的可能。
设试验E的样本空间为S, A为E的事件,B1,B2,……,Bc为S的一个划分,且P(A)>0,P(Bi)>0,则
P(Bi|A)=P(A|Bi)P(Bi)∑cj=1P(A|Bj)P(Bj)=P(A|Bi)P(Bi)P(A)
其中:
P(Bi|A)为后验概率,表示事件A(结果A)出现后,各不相容的条件
Bi 存在的概率,它是在结果出现后才计算得到的,因此称为“后验”。
P(A|Bj)为类条件概率,表示在各条件
Bi存在时,结果事件A发生的概率。
P(Bj) 称为先验概率,表示各不相容的条件
Bi 出现的概率,它与结果A是否出现无关,仅表示根据先验知识或主观推断。
P(A)表达了结果A在各种条件下的总体概率。
这里A对应特征向量
x,
Bi对应
ωi2.1.2 贝叶斯决策理论的已知条件
1. 已知决策分类的类别数为 c ,各类别的状态为:
ωi,i=1,……,c
2. 已知各类别总体的概率分布(各个类别的先验概率和类条件概率密度函数)
P(ωi),p(x|ωi),i=1,……,c
2.1.3 贝叶斯决策理论欲解决的问题
如果在特征空间中观察到某一个(随机)向量,
x=(x1,x2,……,xd)T
那么,应该将
x 分到哪一个类才是最合理的?
2.2 各种贝叶斯分类器
2.2.1 最小错误率贝叶斯分类器
当已知类别出现的先验概率 P(ωi) 和每个类中的样本分布的类条件概率密度P(x|ωi)时,可以求得一个待分类样本属于每类的后验概率 P(ωi|x)。
决策规则:
两类问题中,当P(ωi|x)>P(ωj|x), 判决 x∈ωi;
多类问题中,当P(ωi|x)=max1≤j≤cP(ωj|x)时,判决 x∈ωi;
上述的分类决策规则实为“最大后验概率分类器”,它与“最小错误率分类器”的关系可以简单分析如下:
什么是分类错误率呢?:
分类错误率是指一个分类器按照其分类决策规则对样本进行分类,在结果中发生错误的概率,此处记为 P(e|x),即在随机向量x值已知的情况下,发生分类错误的概率。
对于随机向量x 的每一个取值,都存在一个分类错误率 P(e|x=xi)
对于总体而言,错误率P(e)即为每一点分类错误率对随机向量x的期望,即:
P(e)=Ex(P(e|x))=∫P(e|x)p(x)dx
对于
二分类而言:
P(e|x)={P(ω1|x),P(ω2|x),当P(ω2|x)>P(ω1|x)当P(ω1|x)>P(ω2|x)
则
P(e)=∫P(e|x)p(x)dx=∫R1P(ω2|x)p(x)dx+∫R2P(ω1|x)p(x)dx
其中,
R1为判定为
ω1 的随机向量
x的区域,
R2为判定为
ω2 的随机向量
x的区域。即为图中阴影部分的区域面积。
最小化错误率即对于每一个判定区域,取得令
P(e|x) 值最小的类,则阴影区域面积最小。
对于
c类的多分类而言:
正确的分类结果是未知的,但是判定错误时,正确结果一定在除了判定类别的其他类别中, 所以:
P(e|x)=1−P(ωi|x)P(ωi|x)=max1≤j≤cP(ωj|x)
则
P(e)=∫P(e|x)p(x)dx=∑i=1c∫Ri(1−P(ωi|x))p(x)dx
对每个点都采取相同的策略,取最大后验概率,即最大后验概率分类器即为最小分类错误分类器。
直接估算后验概率比较困难,通常利用贝叶斯公式,用先验概率和似然函数计算出来。
P(ωi|x)=P(ωi)p(x|ωi)p(x)
而
p(x) 只与数据集的分布有关,与类别
ωi无关,最大后验概率,即为最大
P(ωi)p(x|ωi)。
最大后验概率的其他等价形式:
1. 当
p(x|ωi)P(ωi)=max1≤j≤np(x|ωj)P(ωj)时,判决
x∈ωi; 2. 对于所有的类别
ωj(j≠i) 都有,
l(x)=p(x|ωi)p(x|ωj)>P(ωj)P(ωi)。
l(x)称为似然比,所以又叫最大似然比。
P(ωj)P(ωi) 称为似然比阈值。
3. h(x)=−ln[l(x)]=−ln(p(x|ωi))+ln(p(x|ωj))<ln(P(ωi)P(ωj)) 2.2.2 最小风险贝叶斯分类器
对于不同类别,产生错误的风险是不一样的,比如将良性肿瘤误判为恶性肿瘤和将恶性肿瘤误判为良性肿瘤,显然后者造成的结果更严重,所以期望后者的分类错误率要低一些,即提高后者在分类错误计算中所占的比例。
定义 权重为 λij,表示把 ωi 错判为 ωj 类的惩罚因子(通常 λii=0)。
定义 条件期望损失为 R(ai|x), 表示在给定的 x , 决策 ai , 此时的条件期望损失,即后验概率加权和(其他类错判为 ωi 的加权损失):
r(ai|x)=Eω|x(λji)=∑j=1cλjiP(ωj|x),i=1,2,……,a
其中,
ai表示一种决策,表示判定随即向量
x 属于
ωi 类, 一共有
a=c 种决策(可以拒绝则为
a=c+1 种)。由于
x 是随机向量的观察值,不同的
x 采取不同决策
ai ,其条件风险的大小是不同的。
决策a可看成随机向量 x 的函数,记为 a(x) ,它本身也是一个随机变量。
定义 期望风险为
R=Ex(r(a(x)|x))=∫r(a(x)|x)p(x)dx
期望风险R反应对整个特征空间上所有的x的取值都采用相同的决策
a(x) 所带来的
平均风险,而条件风险
r(ai|x) 只反映观察到某一
x 的条件下采取决策
ai 所带来的风险。
如果采取每个决策行动
ai 使
条件风险 R(ai|x) 最小,则对所有的
x 作出决策时,其
期望风险R 也必然
最小。
决策规则:
多类问题中,当R(ai|x)=min1≤j≤cR(aj|x)时,判决 x∈ωi;
决策步骤:
1. 已知 P(ωj),p(x|ωj),λij,i,j=1,2,……,c(不考虑拒绝策略 a = c)
2. 计算后验概率 P(ωj|x),j=1,2,……,c (根据贝叶斯公式)
3. 计算 r(ai|x)=∑cj=1λjiP(ωj|x) (计算条件风险)
4. R(ai|x)=min1≤j≤cR(aj|x),则 a=ai (决策)
2.3 正态分布的贝叶斯分类器
2.3.1 正态分布
正态分布是自然界中最常见的概率分布形式,其定义为:
p(x)=12π−−√σe−(x−μ)22σ2,x∈R
则称X服从参数为
σ,μ 的正态分布或高斯分布,记为
N(μ,σ2) 其分布函数为
F(x)=12π−−√σ∫x−∞e−(t−μ)22σ2dt
其中:
μ=E(x)=∫∞−∞xp(x)dx (均值或数学期望)
σ2=E[(x−μ)2]=∫∞−∞(x−μ)2p(x)dx (方差)
2.3.2 多维正态分布条件下的贝叶斯分类
对于 d 维正态分布,其概率密度公式为:
p(x)=1(2π)d2|Σ|12exp[−12(x−μ)TΣ−1(x−μ)],x∈R
其中:
x=(x1,x2,…,xd)T,
d 维特征向量
μ=(μ1,μ2,…,μd)T,
d 维均值向量
Σ 为
d×d 维协方差矩阵,
Σ−1为
Σ 的逆矩阵,
|Σ|为
Σ 的行列式
Σ=[σij]d×d (
i≠j,σij为协方差,否则为方差)
对于最小错误率贝叶斯分类器,它把样本划分到后验概率最大的那一类中,因此可以定义每一类的判别函数为:
gi(x)=P(ωi|x)=P(x|ωi)P(ωi),i=1,2,…,c
假设 样本空间被划分到
c 个类别决策区域,则
分类判决规则为:
对于
gi(x)>gj(x),i=1,2,…,c,j≠i,则
x∈ωi 此时任两个类别之间的决策边界由方程:
gi(x)=gj(x)决定
判别函数中,先验概率
P(ωi) 是一个与特征向量无关的常量,类条件概率密度
p(x|ωi) 则满足一定的概率分布。
假设 p(x|ωi) 符合 d 维正态分布,则判别函数为:
gi(x)=P(ωi)(2π)d2|Σi|12exp[−12(x−μi)TΣ−1i(x−μi)]
该判别函数含有指数,不方便计算,考虑到对数函数是单调递增函数,可对原判别函数取对数后作为新的判别函数,即:
gi(x)=lnP(ωi)+ln[1(2π)d2|Σi|12exp[−12(x−μi)TΣ−1i(x−μi)]]
=lnP(ωi)−12(x−μi)TΣ−1i(x−μi)−d2ln2π−12ln|Σi|
令
ci=−d2ln2π−12ln|Σi| 则
gi(x)=−12(x−μi)TΣ−1i(x−μi)+lnP(ωi)+ci 展开为:
gi(x)=−12xTΣ−1ix+12xTΣ−1iμi−12μTiΣ−1iμi+12μTiΣ−1ix+lnP(ωi)+ci
特殊情况:
1. 若
Σi=Σj=Σ xTΣ−1ix 与类别无关,在决策面方程中与常量
ci效果相同,可删除。
因为
Σ 是对称矩阵,则
xTΣ−1iμi=∑i=1dμi∑j=1dxjσ′ji=∑i=1dμi∑j=1dxjσ′ij=μTiΣ−1x
gi(x)=12μTiΣ−1x−12μTiΣ−1iμi+12μTiΣ−1ix+lnP(ωi)
gi(x)=μTiΣ−1x−12μTiΣ−1iμi+lnP(ωi)
取
ωi=Σ−1μi,
ωi0=lnP(ωi)−12μTiΣ−1iμi 则
gi(x)=ωTix+ωi0 gi(x)是
x的线性函数
若 P(ωi)≠P(ωj) 决策规则:
gi(x)=ωTix+ωi0=max1≤j≤cωTix+ωi0,则
x∈ωi 决策面方程:
WT(x−x0)=0,
其中
W=Σ−1(μi−μj),x0=12(μi+μj)−lnP(ωi)P(ωj)(μi−μj)(μi−μj)TΣ−1(μi−μj) -向量
x0 与向量
μi−μj 平行
-向量
WT 与决策平面正交
若 P(ωi)=P(ωj) W=Σ−1(μi−μj),x0=12(μi+μj) x0为连接均值的线段中点
μi−μj与决策平面正交
2. 若
Σi=σI2 gi(x)=−12σ2(x−μi)T(x−μi)+lnP(ωi)(1) P(ωi)=P(ωj)=k
gi(x)=−12σ2(x−μi)T(x−μi)
决策规则:gi(x)=min1≤j≤c12σ2(x−μi)T(x−μi),则 x∈ωi
又称为 最小距离分类器
(2) P(ωi)≠P(ωj)
如果待分类的向量x同两类均值向量的欧氏距离相等,则归入先验概率大的那类。
3.朴素贝叶斯分类器
为了保证概率密度函数估计的准确性,训练样本的数量 N 一定要足够大,样本数量随着特征空间维数 l 的增加呈指数增长。因为 x 和 ω 的组合很多,假设 xj 可能取值 Sj 个, ω 可能取值 K 个,那么样本数量是 K∏lj=1Sj。特别地,当 xj=S,那么数量为 KSl 。
由于 数据量不足,不得不降低一些概率密度估计所要求的准确度。在此情况下, 假设每个特征值 xj,j=1,2,…,l 是统计独立的,可以得到:
p(x|ωi)=p(x1,x2,…,xl|ωi)=∏j=1lp(xj|ωi),i=1,2,…,c
这种假设,
p(xi|ωi) 需要用
S 个训练样本来估计概率密度,使得训练样本数量减少到了
Sl , 这种分类方式就是所谓的
朴素贝叶斯分类器。
决策规则:
ωc=argmaxωi∏j=1lp(xj|ωi),i=1,2,…,c
4.半朴素贝叶斯分类器
属性条件独立性假设在现实中往往很难成立。于是,人们尝试着对属性条件独立性假设进行一定程度的放松,由此产生了一类称为“半朴素贝叶斯分类器”的学习方法。
“独依赖估计”是半朴素贝叶斯最常用的一种策略,所谓独依赖就是假设每个属性在类别之外最多依赖于一个其他属性,即
P(c|x)=P(c)p(x)∏i=1dp(xi|c,pai)
其中
pai 是属性
xi 所依赖的属性,称为
xi 的父属性。(通常属性依赖不构成环)
概率估计:
P(c|xi)=|Dc,xi|+1|D|+Ni P(xj|c,xi)=|Dc,xi,xj|+1|Dc,xi|+Nj 其中,
Ni为 第
i个属性可能的取值数,
Dc,xi为类别为c且在第i个属性上取值为
xi的样本集合,
Dc,xi,xj为类别为c且在第i个属性上取值为
xi,在第j个属性上取值为
xj的样本集合
5.贝叶斯网络
现考虑属性间的高阶依赖来进一步提升泛化性能。也就是说将属性pai替换为包含k个属性的集合pai。此时引入了贝叶斯网。
贝叶斯网借助了有向无环图来刻画属性间的依赖关系,并使用条件概率表来描述属性的联合概率分布。一个贝叶斯网B由结构G和参数Θ两部分构成,即 B=<G,Θ>,网络结构G是一个有向无环图,其每个结点对应于一个属性,若两个属性有直接依赖关系,则它们由一条边连接起来;参数 Θ 定量描述这种依赖关系,假设属性xi在G中的父节点集为 πi,则Θ包含了每个属性的条件概率表 θxi|πi=PB(xi|πi)。
联合概率分布定义为:
PB(x1,x2,…,xd)=∏i=1dPB(xi|πi)
结构: 同父结构: 给定父节点
a 的取值,则
b 与
c 条件独立。
P(a,b,c)=P(a)P(b|a)P(c|a) P(b,c|a)=P(a,b,c)P(a)=P(a)P(b|a)P(c|a)P(a)=P(b|a)P(c|a) V型结构 :
a依赖于
b,c的联合分布。
P(a,b,c)=P(b)P(c)P(a|b,c) P(b,c)=P(a,b,c)P(a|b,c)=P(b)P(c) 顺序结构: 给定
a 的取值,则
b 与
c 条件独立。
P(a,b,c)=P(c)P(a|c)P(b|a) P(b,c|a)=P(a,b,c)P(a)=P(c)P(a|c)P(b|a)P(a)=P(a,c)P(b|a)P(a)=P(c|a)P(b|a)学习:
给定训练集D={x1,x2,…,xm},学习过程如下:
mins(B|D)=minf(θ)|B|−LL(B|D)
LL(B|D)=∑i=1mlogPB(xi)
f(θ)表示每个参数
θ所需的字节数,|B|为贝叶斯网的参数个数。
6.未知概率密度函数的估计
6.1 最大似然估计
目标: 估计 p(x|ωi)
样本集: X=x1,x2,…,xN 属于ωi类的样本
假设每一类中的数据不影响其他类参数的估计,可以各类独立地解决这样的问题。
假设不同样本之间具有统计的独立性:
p(X;θ)=p(x1,x2,…,xN;θ)=∏k=1Np(xk;θ)
利用最大似然法得到最优参数:
θML=argmaxθ∏k=1Np(xk;θ)
令似然函数对
θ的梯度为0
∂∏Nk=1p(xk;θ)∂θ=0
对数化:
L(θ)=ln∏k=1Np(xk;θ)
求导:
∂L(θ)∂θ=∑k=1N∂lnp(xk;θ)∂θ=∑k=1N1p(xk;θ)∂p(xk;θ)∂θ=0
6.2 最大后验概率估计(贝叶斯估计)
最大似然估计中,认为 θ 是确定存在的参数,是不变的。但是θ是个随机向量,并且有其先验概率。
p(θ|X)=p(θ)p(X|θ)p(X)
计算最大值点
θMAP:∂∂θp(θ|X)=0
p(x)与
θ无关,则
∂∂θ(p(θ)p(X|θ))=0
6.3 贝叶斯推论
6.4 最大熵估计
熵是关于事件不确定因素的度量方法,是特征向量的随机性度量。如果p(x)是一个密度函数,相关的熵 H 定义为
H=−∫xp(x)lnp(x)dx
最大熵估计是针对给定的约束条件使熵最大。
栗子:
当
x1≤x≤x2时,随即变量
x是非零值,其余情况
x=0.计算密度函数的最大熵估计。
约束条件
∫x2x1p(x)dx=1
用拉格朗日乘数,相应的最大化
HL=−∫x2x1p(x)(lnp(x)−λ)dx
∂Hl∂p(x)=−∫x2x1{(lnp(x)−λ)+1}dx
令
∂Hl∂p(x)=0 得到
p(x)=exp(λ−1)
利用
∫x2x1p(x)dx=1 得到
exp(λ−1)=1x2−x1 因此
p(x)=1x2−x1 没有其他约束,所有点服从均匀分布。
6.5 混合模型的参数估计
6.5.1 混合模型介绍
假设一个 J 分布符合 p(x),则这个模型隐含的假设是每一个点 x 都可能以概率 Pj,j=1,2,…,J 属于 J 模型分布。
p(x)=∑j=1Jp(x|j)Pj
其中
∑Jj=1Pj=1,∫xp(x|j)dx=1 在最大似然估计中,已知类标签,使问题成为每一类独立的最大似然估计。没有标签信息使现在的任务成为一个典型的具有不完全数据集的任务。
6.5.2 EM算法
混合模型的最大似然估计为
θ∗=argmaxθln∏XP(x;θ)
=argmaxθ∑XlnP(x;θ)
=argmaxθ∑Xln∑ZP(x,z;θ)
和的求导比较复杂(log(f1(x)+f2(x)+…,+fn(x)))
利用 Jensen 不等式
如果 f 是凸函数,X 是随机变量,那么 E[f(x)]≥f(E[x])
特别地,如果f是严格凸函数,当且仅当 X 是常量,上式取等号。
X是随机变量,有0.5的概率是 a,0.5的概率是 b
f(x)是凸函数
θ∗=argmaxθ∑Xln∑ZP(x,z;θ)
=argmaxθ∑Xln∑ZQ(z;θ)P(x,z;θ)Q(z;θ)
=argmaxθ∑Xln∑ZEQ[P(x,z;θ)Q(z;θ)]
≥argmaxθ∑X∑ZEQ[ln(P(x,z;θ)Q(z;θ))]
=argmaxθ∑X∑ZQ(z;θ)ln(P(x,z;θ)Q(z;θ))
当P(x,z;θ)Q(z;θ)=c(c为任意常数)才取等号
∑ZQ(z;θ)=1
Q(z;θ)=p(x,z;θ)c=p(x,z;θ)c∑ZQ(z;θ)=p(x,z;θ)∑Zp(x,z;θ)p(x,z;θ)p(x;θ)=p(z|x;θ)
Q为给定 x 下,z的后验概率
EM算法:
θ∗=argmaxθ∑X∑ZQ(z;θ)ln(P(x,z;θ)Q(z;θ))
=argmaxθ∑X∑Z(Q(z;θ)lnP(x,z;θ)−Q(z;θ)ln(Q(z;θ)))
第二项与θ无关
=argmaxθ∑X∑Z(Q(z;θ)lnP(x,z;θ))
=argmaxθ∑X∑Z(EQlnP(x,z;θ))
E: 建立L(θ)的下界
M:最大化L(θ)
6.6 非参数估计
6.6.1 Parzen 窗法
6.6.2 k近邻密度估计
7.参考资料
1.https://baike.baidu.com/item/贝叶斯决策理论/9939173?fr=aladdin
2.https://wenku.baidu.com/view/6d35ff4d767f5acfa1c7cd22.html
3.https://wenku.baidu.com/view/dcfdf6c0b8f67c1cfad6b83a.html
4.https://wenku.baidu.com/view/eaf03531ee06eff9aef80739.html
5.https://wenku.baidu.com/view/1eb4d02da76e58fafab0037a.html
6.http://blog.csdn.net/yangleo1987/article/details/53289387
7.《模式识别》Sergios Theodoridis,Konstantinos Koutroumbas 第四版
8.http://www.hankcs.com/ml/naive-bayesian-method.html