模式识别入门与贝叶斯决策理论

来源：互联网发布：最新网络流行词2016 编辑：程序博客网时间：2024/05/22 20:12

关键词：监督模式和非监督，马氏距离，bayes决策理论

1.监督模式识别和非监督模式识别的区别
监督学习(supervised pattern recognition)：已知要划分的类别，并且能够获得一定数量的类别已知的训练样本。
非监督学习（unsupervised pattern recognition）：事先不知道划分的是什么类别，更没有类别已知的样本做训练。
说白了就是给你数据和label就是监督的，没有label只有数据就是非监督的。

2.一般的模式识别问题分为4部分：原始数据的获取和预处理，特征提取和选择、分类或者聚类、后处理。
处理监督模式识别问题的一般步骤：
- 分析问题
- 原始特征获取
- 特征提取和选择
- 分类器的设计（训练）
- 分类决策（识别）

非监督问题：
- 分析问题
- 原始特征获取
- 特征提取和选择
- 聚类分析
- 结果揭示

bayes决策理论

最小错误率贝叶斯决策：

从最小错误了处罚，利用概率论中的贝叶斯公式，就能的初始错误率最小的分类决策。

min P (e) = \int P (e | x) p (x) d x

有多种等价形式如：

P (ω i | x) = max j = 1, 2 P (ω j | x)

或者：

l (x) = p ( x | ω 1 ) p ( x | ω 2 ) > λ = P ( ω 1 ) P ( ω 2 ), 则 x \in {ω 1 ω 2

一般：

P (e) = P (ω 2) P 2 (e) + P (ω 1) P 1 (e)

最小贝叶斯风险决策：

考虑各种错误造成损失不同时的一种最优策略。
（1）把样本x看做d为随即向量x=[x 1 ,x 2 ,...,x d ] T
（2）状态空间Ω 由c个可能的状态（即有c类）组成：Ω=ω 1 ,ω 2 ,...,ω c
（3）对随即向量x可能采取的决策组成了决策空间，它由k个决策组成
α 1 ,α 2 ,...,α k
（4）对于实际状态为ω j 的向量x，才去决策α i 所带来的损失为
λ(α i ,ω j ),i=1,...k,j=1,...,c
每个决策的的期望损失为：R(α i |x)=E[λ(α i ,ω j )|x]=∑ c j=1 λ(α i ,ω j )P(ω j |x),i=1,...,k
在的的特征空间中所有可能的样板恩x才去决策所造成的期望损失是：

R (α) = \int R (α (x) | x) d x

最小风险贝叶斯决策就是最小化这一期望风险:

min α R (α)

Neyman Pearson决策规则

限定一类错误率为常数，而使另一类错误率最小的决策规则称作NeymanPearson准则

朴素贝叶斯分类器（Naive Bayes）

p (x 1, x 2, . . ., x d | w) = p (x 1 | w) p (x 2 | w) . . . p (x d | w)

马氏距离

d (x) = (x - μ) T Σ - 1 (x - μ)

优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点：它的缺点是夸大了变化微小的变量的作用。

0 0