Chapter 6 贝叶斯学习
来源:互联网 发布:php exec函数用法 编辑:程序博客网 时间:2024/05/21 05:43
第6章 贝叶斯学习
6.1 概述
- 贝叶斯推理对机器学习十分重要,它
- 为衡量多个假设的置信度提供了定量的方法,
- 为直接操作概率的学习算法提供了基础,
- 也为其他算法的分析提供了理论框架。
- 贝叶斯学习方法的特性包括:
- 观察到的每个训练样例可以增量地降低或升高某假设的估计概率;
- 先验知识可以和观察数据一起决定假设的最终概率;
- 允许假设做出不确定的预测;
- 新的实例分类可由多个假设以概率加权的形式一起做出预测;
- 即使在贝叶斯方法计算复杂度较高时,仍可以作为一个最优的决策的标准来衡量其他方法。
- 实践中运用贝叶斯方法的难点在于:
- 需要概率的初始知识;
- 一般情况下确定贝叶斯最优假设的计算代价比较大(同候选假设的数量成线性关系)。
6.2 贝叶斯法则
- 先验概率(Prior Probaility)
P(h) 反映了我们所拥有的关于h 是一个正确假设的机会的背景知识。若没有这一先验知识可以简单地将所有候选假设赋予相同的先验概率。P(D) 反映了我们将要观察的训练数据D 的先验概率,即在没有确定某一假设成立时D 的概率。 P(D│h) 代表假设h 成立的情况下观察到数据D 的概率。- 后验概率(Posterior Probability)
P(h|D) 反映了观察到数据D 后,假设h 成立的置信度。 - 贝叶斯公式:
P(h|D)=P(D|h)P(h)P(D)
6.3 极大后验假设和极大似然假设
- 极大后验(Maximum A Posteriori , MAP)假设:学习器考虑候选假设集合
H 并在其中寻找给定数据D 时可能性最大的假设h∈H (或者存在多个这样的假设时选择其中之一)。这种具有最大可能性的假设成为极大后验假设。更精确地说,当下式成立时,称hMAP 为MAP假设:hMAP≡argmaxh∈HP(h|D)=argmaxh∈HP(D|h)P(h)P(D)=argmaxh∈HP(D|h)P(h) - 极大似然(Maximum Likehood,ML)假设:在某些情况下,可假定中的每个假设有相同的先验概率(即对
H 中任意hi 和hj ,P(hi)=P(hj) ) ,此时,只需考虑P(D│h) 。P(D│h) 常被称为给定h 时数据D 的似然度,使P(D│h) 最大的假设被称为极大似然假设hML :hML≡argmaxh∈HP(D|h) 若所有假设有相等的先验概率,则ML假设等同于MAP假设。
6.4 贝叶斯法则和概念学习
6.4.1 Brute-Force贝叶斯概念学习
Brute-Force MAP学习算法
对H中每个假设h ,计算后验概率:
P(h|D)=P(D|h)P(h)P(D)
输出有最高后验概率的假设hMAP :
hMAP=argmaxh∈HP(h|D)
若满足:
- 训练数据
D 是无噪声的; - 目标概念
c 包含在假设空间H 中; - 没有任何理由认为某假设比其他假设的可能性大。
则与
6.4.2 MAP假设和一致学习器
一致学习器:若学习算法输出的假设在训练样例上有零错误率。
如果假设空间
贝叶斯框架提出一种刻画学习算法行为的方法,即使该学习算法不进行概率操作。通过确定算法输出最优假设时使用的概率分布
6.5 极大似然与最小误差平方假设
学习器
取对数得
可见,误差平方项是从正态分布定义中的指数项中得到的。如果假定噪声分布有另外的形式,可进行类似的推导得到不同的结果。
该问题框架只考虑了训练样例的目标值中的噪声,没有考虑实例属性中的噪声。
6.6 极大似然与最小交叉熵假设
假定训练数据
以上量的负值称为交叉熵(Cross Entropy)。
6.7 最小描述长度准则
最小描述长度准则(Minimum Description Length,MDL): 使用代码
提出最小描述长度准则的目的是为了根据信息论中的基本概念来解释
若选择
MDL准则提供了一种方法以在假设的复杂性和假设产生错误的数量之间进行折中,它可能选择一个较短的产生少量错误的假设,而不是能完美分类训练数据的较长的假设。
注意MDL准则是有前提的,没有理由相信MDL假设对任意编码
6.8 贝叶斯最优分类器与Gibbs算法
6.8.1 贝叶斯最优分类器
如果新实例的最可能分类可取某集合
贝叶斯最优分类器(Bayes Optimal Classifier):
使用相同的假设空间和相同的先验概率,没有其他方法能比贝叶斯最优分类器的平均性能更好。该方法在给定可用数据、假设空间及这些假设的先验概率的情况下,使得新实例被正确分类的可能性达到最大。贝叶斯最优分类器的一个有趣的属性是,它所做的分类可以对应于
6.8.2 Gibbs算法
贝叶斯最优分类器的计算开销很大,原因在于它需要计算
Gibbs算法:
1. 按照
2. 使用
若期望值是在随机抽取的目标概念上作出的,且抽取过程按照学习器假定的先验概率,那么,此条件下Gibbs算法的错误率期望最差为贝叶斯最优分类器的两倍。
6.9 朴素贝叶斯分类器与m-估计
6.9.1 朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes Classifier)基于一个简单的假定:在给定目标值时属性值之间相互条件独立,即:
朴素贝叶斯分类器:
朴素贝叶斯分类器没有明确的搜索假设空间的过程。
当条件独立性满足时,朴素贝叶斯分类等于MAP分类。
6.9.2 m-估计
- m-估计:
nc+mpn+m
其中,p 是将要确定的概率的先验估计,在缺少其他信息时,选择p 的一种典型方法是假定均匀的先验概率,即如果某属性有k 个可能值,那么设置p=1/k 。m 称为等效样本大小,因为它相当于将n 个实际的观察扩大,加上m 个按p 分布的虚拟样本。 - Laplace平滑(加1平滑):每个属性上的计数结果加1,使得估计概率变化可以忽略不计,以避免零概率问题。
6.10 贝叶斯信念网简介
朴素贝叶斯分类器假定所有变量在给定目标变量值时为条件独立的,而贝叶斯信念网可以表述变量的一个子集上的条件独立性假设。
6.10.1 条件独立性
当下述条件成立时,称变量集合
6.10.2 贝叶斯信念网的表示
贝叶斯信念网表示一组变量的联合概率分布,方法是指定一组条件独立性假定(表示为一个有向无环图DAG)和一组局部条件概率集合。每个随机变量在此DAG中表示为一个节点,节点间的边表示变量间的概率关系。贝叶斯信念网就是通过贝叶斯链式法则表示变量间的联合概率分布。
6.11 EM算法
6.11.1 EM算法的一般表述
设
1. E步骤:使用当前假设
2. M步骤:将当前假设
重复以上两个步骤直至算法收敛。
当函数
6.11.2 k-均值算法的推导
k-均值算法是为了估计
每个实例
于是有:
因为
即,k-均值问题中函数
其中,
接下来,
令
得
- Chapter 6 贝叶斯学习
- Matlab学习 Chapter 6
- 《大话数据结构》学习笔记--chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 6
- Chapter 1-2学习
- chapter 3 学习
- Matlab学习 Chapter 9
- Chapter 3 决策树学习
- 《算法导论》学习摘要chapter-6——堆排序
- 加速开发插件()
- 第一次JAVA练习20170923
- leetcode 之 Valid Parentheses
- Q:java中关于String类型的一个问题
- 用sprintf函数将数字转换成字符串
- Chapter 6 贝叶斯学习
- cv1380(树形dp)
- Linux桥接模式下设置静态IP的方法
- 工厂模式
- 生成树计数的MatrixTree定理
- JS 瀑布流
- Android中的事件分发----DOWN、MOVE和UP
- android theme(主题)
- 自增自减