贝叶斯-笔记(1)
来源:互联网 发布:怎样修改淘宝卖家地址 编辑:程序博客网 时间:2024/04/30 01:08
0 - 背景
贝叶斯是个好东西(频率学派的不这么看),好多模型都可以从贝叶斯角度来解释,而且贝叶斯决策理论也是作为最优分类,给其他模型做错误上限什么的参照的。对于分类来说,在所有相关概率都已知的情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。然而贝叶斯又分朴素贝叶斯、半朴素贝叶斯、贝叶斯网等等。
1 - 朴素贝叶斯
所谓朴素贝叶斯,就是基于特征条件是相互独立的假设下,学习输入和输出的联合概率分布,所以它是一个生成模型。
假设输入空间是
是由P(X,Y)独立同分布生成的。
朴素贝叶斯就是通过训练集学习数据的联合概率分布,而因为可以通过贝叶斯公式转换成先求
可以看出训练集每个特征之间是存在某种潜在关联的。如果特征还是连续值,那么基本上就是指数级的参数了。如果假设
朴素贝叶斯就是将其看成是相互独立的,因为这个假设条件很强,所以也是朴素贝叶斯的名字由来。即:
从而
所以,取分类概率最大的那个类别,作为该样本的类别,即:
因为分母对于每个类别概率比较都是无意义的,所以上面式子等同于:
后验概率最大化含义:
朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。
如我们选择一个0-1损失函数:
其中
ps:《概率论及其应用 第一卷第三版》170页:
定义:令X为一个随机变量,其可能取值为
定理1: 任一函数
回到期望风险函数,因为此时是给定一个测试样本,则
为了使期望风险最小化,则是上式最小化,因为类别标签是有限个,所以等效于:
1.1 朴素贝叶斯学习过程:
经过上面的叙述,可以看出朴素贝叶斯学习过程,就是为了计算
举例:如给定下面这个训练集,在测试样本为
上表中,
先计算先验类别概率:
然后计算条件概率:
则对于测试样本
由此,分到-1类别。
贝叶斯估计:
因为如上的极大似然估计,会一定情况导致某些概率为0,这时候就会影响到概率计算了,所以为了避免这种情况,解决方法是贝叶斯估计.假设一共N个训练样本:
1)条件概率的贝叶斯估计是:
即在原来的基础上:分子加一个常量,且分母加所有分子常量的和,从而保证新的公式能够满足概率的定义。当常量
对于先验概率的贝叶斯估计:
2017/03/27 第一次修改!
参考资料:
[] 李航,统计学习方法
0 0
- 贝叶斯-笔记(1)
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 笔记1
- 大整数开根 codevs3119
- 解决RedHat6.3/CentOS6系统中“弹出界面eth0:设备似乎不存在”的问题
- B. Anton and Classes
- Android数据库之greendao的基本使用
- (泛型)FanXinglei
- 贝叶斯-笔记(1)
- C++ STL 一般总结
- 阿里笔试_ //如果有人n分钟内,连续发帖M次,将本人封杀掉
- Java入门教程之图书管理系统(由简入繁)(三)
- Linux运维第二十二讲
- struts2使用html的布局
- 设计一个一百亿的计算器
- Ceph源码分析之Async模块:1、异步通信核心模块EventCenter+Epoll
- 性能优化:使用SparseArray和ArrayMap代替HashMap