模式识别入门与贝叶斯决策理论

来源:互联网 发布:最新网络流行词2016 编辑:程序博客网 时间:2024/05/22 20:12

关键词:监督模式和非监督,马氏距离,bayes决策理论

1.监督模式识别和非监督模式识别的区别
监督学习(supervised pattern recognition):已知要划分的类别,并且能够获得一定数量的类别已知的训练样本。
非监督学习(unsupervised pattern recognition):事先不知道划分的是什么类别,更没有类别已知的样本做训练。
说白了就是给你数据和label就是监督的,没有label只有数据就是非监督的。

2.一般的模式识别问题分为4部分:原始数据的获取和预处理,特征提取和选择、分类或者聚类、后处理。
处理监督模式识别问题的一般步骤:
- 分析问题
- 原始特征获取
- 特征提取和选择
- 分类器的设计(训练)
- 分类决策(识别)

非监督问题:
- 分析问题
- 原始特征获取
- 特征提取和选择
- 聚类分析
- 结果揭示

bayes决策理论

最小错误率贝叶斯决策:

从最小错误了处罚,利用概率论中的贝叶斯公式,就能的初始错误率最小的分类决策。

minP(e)=P(e|x)p(x)dx 

有多种等价形式如:
P(ω i |x)=max j=1,2 P(ω j |x) 

或者:
l(x)=p(x|ω 1 )p(x|ω 2 ) >λ=P(ω 1 )P(ω 2 ) ,x{ω 1 ω 2   

一般:
P(e)=P(ω 2 )P 2 (e)+P(ω 1 )P 1 (e) 

最小贝叶斯风险决策:

考虑各种错误造成损失不同时的一种最优策略。
(1)把样本x看做d为随即向量x=[x 1 ,x 2 ,...,x d ] T  
(2)状态空间Ω 由c个可能的状态(即有c类)组成:Ω=ω 1 ,ω 2 ,...,ω c  
(3)对随即向量x可能采取的决策组成了决策空间,它由k个决策组成
α 1 ,α 2 ,...,α k  
(4)对于实际状态为ω j xα i  
λ(α i ,ω j ),i=1,...k,j=1,...,c 
每个决策的的期望损失为:R(α i |x)=E[λ(α i ,ω j )|x]= c j=1 λ(α i ,ω j )P(ω j |x),i=1,...,k 
在的的特征空间中所有可能的样板恩x才去决策所造成的期望损失是:

R(α)=R(α(x)|x)dx 

最小风险贝叶斯决策就是最小化这一期望风险:
min α R(α) 

Neyman Pearson决策规则

限定一类错误率为常数,而使另一类错误率最小的决策规则称作NeymanPearson准则

朴素贝叶斯分类器(Naive Bayes)

p(x 1 ,x 2 ,...,x d |w)=p(x 1 |w)p(x 2 |w)...p(x d |w) 

马氏距离

d(x)=(xμ) T Σ 1 (xμ) 

优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:它的缺点是夸大了变化微小的变量的作用。

0 0
原创粉丝点击