机器学习笔记-贝叶斯学习(4)
来源:互联网 发布:诸葛亮北伐的战略 知乎 编辑:程序博客网 时间:2024/05/16 20:31
贝叶斯最优分类器
前面我们一直在讨论“给定训练数据,最可能的假设是什么?”,通过计算极大似然假设我们可以选择最大的一项假设;而实际上,该问题通常与另一更有意义的问题紧密相关:“给定训练数据,对新实例的最可能分类是什么?”接下来,我们来看如何解决这个问题。
为了更直观些,考虑一包含三个假设
一般的说,新实例的最可能分类可通过合并所有假设的预测得到,其权重为它们的后验概率。如果新的样例的可能的分类可取某集合V中的任一值
新实例的最优分类为
贝叶斯最优分类器:
优点:使用相同的假设空间和相同的先验概率,没有其他方法能比其平均性能更 好。该方法在给定可用数据、假设空间及这些假设的先验概率下使新实例的正确分类的可能 性达到最大。
缺点:虽然贝叶斯最优分类器能从给定训练数据中获得最好的性能,应用此算法的开销可能很 大。原因在于它要计算 H 中每个假设的后验概率,然后合并每个假设的预测,以分类新实例。
根据这个缺点,MACHINE LEARNING 提到了GIBBS算法,这个算法定义如下:
1.按照 H上的后验概率分布,从 H中随机选择假设 h。
2.使用 h 来预言下一实例 x 的分类。
当有一待分类新实例时, Gibbs 算法简单地按照当前的后验概率分布,使用一随机抽取的假设。令人吃惊的是,可证明在一定条件下 Gibbs 算法的误分类率的期望值最多为贝叶斯最优分类器的两倍。更精确地讲,期望值是在随机抽取的目标概念上作出,抽取过程按照学习器假定的先验概率。在此条件下, Gibbs 算法的错误率期望值最差为贝叶斯分类器的两倍。(其实这一点我不能理解,感觉应该差很多,有时间得看看那篇paper的论点。不过显而易见的,这个算法的开销小了很多)。
朴素贝叶斯分类器:
这个是本篇的重点,朴素贝叶斯分类器的实用性很高,而且性能不算差。
应用任务:
每个实例x可由属性值的合取(例如,人由眼和鼻和手和脚组成,合取就是和)描述,而目标函数
目的:
贝叶斯方法的新实例分类目标是在给定描述实例的属性值
可使用贝叶斯公式将此表达式重写为:
现在要做的是基于训练数据估计式中两个数据项的值。估计每个
朴素贝叶斯分类器基于一个简单的假定:在给定目标值时属性值之间相互条件独立。换言之,该假定说明给定实例的目标值情况下,观察到联合的
代入到原式中:
其中vNB表示朴素贝叶斯分类器输出的目标值。注意在朴素贝叶斯分类器中,须从训练 数据中估计的不同
朴素贝叶斯学习方法和其他已介绍的学习方法之间有一有趣的差别:没有明确的搜索假 设空间的过程(这里,可能假设的空间为可被赋予不同的
例子:
上面提供了目标概念 PlayTennis 的 14 个训练样例,其中每一 天由属性 Outlook, Temprature, Humidity 和 Wind 来描述。这里我们使用此表中的数据结合 朴素贝叶斯分类器来分类下面的新实例:
我们的任务是对此新实例预测目标概念PlayTennis 的目标值( yes 或no)。
接下来算各个部分的量pv:
相似地,可以估计出条件概率,例如对于 Wind=Strong 有:
最后计算总式如下:
这样,基于从训练数据中学习到的概率估计,朴素贝叶斯分类器将此实例赋以目标值 PlayTennis= no 。更进一步,通过将上述的量归一化,可计算给定观察值下目标值为 no 的 条件概率。对于此例,概率为 0.0206/(0.0206+0.0053)=0.795。
估计概率:
在上例中, 估计P(Wind=Strong|PlayTennis=no)使用的是比值
首先,
我们这里采用一种估计概率的贝叶斯方法,使用如下定义的 m-估计:
其实这个公式相当于将n个实际的观察扩大,加上m个按p分布的虚拟样本。这样的话,也就解决了上面的问题。
这里,
- 机器学习笔记-贝叶斯学习(4)
- 机器学习笔记 - 贝叶斯学习(5)
- 机器学习-笔记4
- 机器学习笔记4
- 机器学习(笔记)
- 机器学习实战笔记4(朴素贝叶斯)
- 机器学习----笔记之朴素贝叶斯(4)
- 机器学习笔记4-朴素贝叶斯
- 机器学习实战笔记4(朴素贝叶斯)
- 《机器学习》学习笔记
- 机器学习----学习笔记
- 机器学习学习笔记
- 机器学习 学习笔记
- 机器学习 学习笔记
- 机器学习 学习笔记
- 机器学习 学习笔记
- 机器学习 学习笔记
- 机器学习 学习笔记
- cocos2dx-2.x CCFileUtils文件管理类分析(2)
- 浅析Android binder机制
- websocket协议分析
- CentOS6.3编译安装git
- 个推崩溃的问题
- 机器学习笔记-贝叶斯学习(4)
- 密码保存在Keychan比NSUserDefaults里的优点 (Touch ID以及1Password)
- 技术blog06 by 八戒
- lager_transform未定义错误
- maven学习
- 一共81个,开源大数据处理工具汇总
- HDU_1166_线段树
- Android L(Android 5.0) 系统主色调
- 谷歌偏转库一个类