基于贝叶斯决策理论的分类器
来源:互联网 发布:全景旅游教学软件 编辑:程序博客网 时间:2024/06/06 17:05
基于贝叶斯决策理论的分类器
- 基于贝叶斯决策理论的分类器
- 贝叶斯决策理论
- 1 如何衡量分类好坏
- 参数估计
- 1 极大似然估计
- 2 最大后验概率估计
- 3 最大熵估计
- 4 非参数估计
- 贝叶斯分类器在现实中的应用
- 1 垃圾邮件分类
- 2 贝叶斯网络
- 参考文献
- 贝叶斯决策理论
首先,我们知道机器学习分为监督学习和非监督学习两大类。在监督学习中,我们主要面对的是拟合问题(regression)和分类问题(classification)。在本节中,我们先来了解一下如何使用贝叶斯规则进行分类。
1. 贝叶斯决策理论
通常,我们会采集到许多的样本向量
上式中,
我们的目标是:当得到一个新的样本
(这里考虑离散的情况,积分变为求和,同时只考虑二分类问题)
到这里,我们就可以通过对
知道了判决规则之后,将贝叶斯公式代入进行推导,获取一个等价的判决规则
1.1 如何衡量分类好坏?
直观上,我们认为尽可能的使分类正确才是衡量分类器好坏的标准,但在某些情况下,使用分类正确率来衡量分类器好坏是不合适的。比如根据癌症患者的一些信息,判断该患者是早期还是晚期患者,如果我们一味的准求准确率,而将部分晚期患者错判为早期患者,这将是致命的错误。因此这里我们引出了两种衡量分类器好坏
- 最小分类误差
在该标准下,我们要做的就是使分类误差降到最低,而贝叶斯分类器可以证明在最小化分类错误率上是最优的。我们从下图来直观的认识一下。
图中的阴影面积是分类错误的概率,我们要找到一个合适的判决门限
- 最小平均风险
这里我们定义了一个风险函数和损失矩阵,我们要做的就是将x 分给使风险函数值最小的那个类
上式中
如果正确分类的话惩罚项为0,表示不受惩罚,根据需要去定义分类错误时收到的惩罚大小。
因此在分类时,我们要计算k=1和2时的损失大小,将x分给使损失最小的那一类,这就是最小平均风险。但是,要注意的是此时的损失
2. 参数估计
我们在获取到大量的样本数据
在介绍估计方法之前,我们要先了解一些概念:
- 要被估计的参数:
θ - 先验概率:
p(θ) 表示θ 的先验概率 - 后验概率:
p(θ|x) 表示在给定x 的条件下,θ 的概率 - 似然函数:
p(x;θ) ,似然函数是以θ 为自变量的函数
下面会介绍四种参数估计方法。
2.1 极大似然估计
因为我们的样本是随机获得的,样本间是独立同分布的,所以我们可以写出似然函数
找到使似然函数取最大值的时的
通过分析我们知道,极大似然估计是渐进无偏的估计,估计值均方收敛与真实值,如果想要估计的足够准确,要求样本数
这时,我们再观察似然函数,可以发现其中都是连乘结构,因此我们可以在似然函数外边套上一个
2.2 最大后验概率估计
通过该方法的名字我们就可以知道,我们是要使参数的后验概率达到最大。和极大似然估计最大的不同是,这里我们认为
根据贝叶斯公式,我们可以得到参数
式中,
等价于求导:
到这里,我们发现了一个问题,我们并不知道
2.3 最大熵估计
首先引入熵的概念,熵表示一个系统的混乱程度,这是从物理学中借鉴过来的概念,下面给出表达式:
因为我们要估计的是某种概率密度函数,所以其积分值等于1,这是一个线性约束条件,这是我们的问题就转化为了求解这个线性约束的最优化问题,求解方法是拉格朗日乘子法,可以参考这方面的书籍。
2.4 非参数估计
这是一种非常直观的估计方法,引入下面这张图来进行说明
我们只需要合理选择x的间隔即可,间隔小,可以得到更加精确的估计,但是如果样本数量较少的话,概率密度函数会出现很多毛刺。间隔大,估计出的概率密度函数更加平滑,但是精度较低,解决方法只有增大样本数量。
估计一维概率密度函数时,我们需要观察样本在x的一小段线段上的分布情况,估计二维概率密度函数时,由于特征数量从1变成了2,于是我们要观察样本在x1,x2的线段组成的一个小方块上的分布情况,到了三维概率密度函数时,观测区间变成了一个立方体,再到高维情况下,观测区间是超立方体(超球体)。
到这就出现问题了,虽然该方法的计算十分简单,但是随着特征数量的增长,观测区间的个数也是指数增长的,同时区间间隔的大小也影响观测区间的个数。
因此,当特征数量很多时,这种方法的效率可能是很低的。
3. 贝叶斯分类器在现实中的应用
3.1 垃圾邮件分类
现在很多邮箱系统都由垃圾邮件自动屏蔽功能,但是系统是怎么知道一封邮件是不是垃圾邮件呢?
这里引出了朴素贝叶斯技术,朴素贝叶斯和贝叶斯最大的不同在于给定了一个很强的条件,就是条件概率之间是相互独立的,下面给出具体的公式:
N是我们收到的邮件中单词的数量,
最后,将该邮件判决为概率大的那一类。
3.2 贝叶斯网络
首先,我们来关注一下概率的链式规则:
从这个式子中,我们发现概率其实是一层一层的传递过去的,这优点类似与算法中图的结构,而由概率构成的一定是一个有向无环图(DAG)。
下边给出一个简单的例子,对癌症患者进行药物测试:
正如图中所示,概率是一级一级传递下来的,在这个类似于决策树的结构中,可以计算出端点上的概率值,这就是我们进行判断的依据。
参考文献
[1]: 模式识别第四版
[2]: 统计学习方法
- 基于贝叶斯决策理论的分类器
- 基于贝叶斯决策理论的分类器
- 基于贝叶斯决策理论的分类方法
- 模式识别读书笔记1 基于贝叶斯决策理论的分类器
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记2之__基于贝叶斯决策理论的分类器
- 贝叶斯决策 分类器
- 贝叶斯决策理论
- 贝叶斯(Bayes)决策理论
- 贝叶斯(Bayes)决策理论
- 贝叶斯(Bayes)决策理论
- 贝叶斯决策理论
- 贝叶斯决策理论
- 贝叶斯决策理论
- 贝叶斯决策理论
- 贝叶斯决策理论
- 贝叶斯(Bayes)决策理论
- 一个基于贝叶斯理论的自动文件分类工具
- 基于HNC语境理论的文本分类
- DispatcherServlet与初始化主线
- 6.10
- Tomcat搭建Web 应用服务器
- 侧拉+底部按钮
- CSS基础(四)
- 基于贝叶斯决策理论的分类器
- Andriodjie——二级列表实现购物车
- 两种构建具有ToolBar的BaseActivity的方式
- Python 文本和数字相等判断
- 两个复选框的联动效果
- DateTimeFormatter的使用
- 软件工程导论第十一章面向对象设计
- Bean.Result
- 使用Linux之安装Tomcat服务器