朴素贝叶斯算法与贝叶斯估计
来源:互联网 发布:mysql sql 表添加字段 编辑:程序博客网 时间:2024/05/20 08:22
在看贝叶斯算法的相关内容时,你一定被突如其来的数学概念搞得头昏脑涨。比如极大似然估计(Maximum likelihood estimation ),极大后验概率估计(Maximum a posteriori estimation),先验概率(Prior probability),后验概率(Posteriori probability)等。所以后面我就本着先学会用,再谈概念的路线来进行。
1. 朴素贝叶斯算法
先说结论: 朴素贝叶斯就是用贝叶斯公式外加“朴素”的条件来求解样本所属类别的概率
1.1 理解朴素贝叶斯
先不予证明的给出条件概率公式,以及贝叶斯定理(公式)
设输入空间
则有:
又因为朴素贝叶斯对条件概率分布做了条件独立性假设,即有
由贝叶斯公式
根据公式
注:
说了这么多,可能还是云里雾里的,举个例子就明白了:
试由下表的训练集学习一个朴素贝叶斯分类器,并确定
易知:
以上的计算过程,就是用训练集训练好一个模型的参数,下面进行预测。
对于给定的
于是我们可以知道,样本
1.2 概念解释
先验概率: 所谓先验概率指的就是根据以往经验得出来的概率;
例如,可以通过西瓜的颜色,敲的声音来判断是否成熟;因为你已经有了通过颜色和声音来判断的“经验”,不管这个经验是你自己学习的还是别人告诉你的。又如在上面的例子中,在拿到一个新样本的时候,事先上面也不做,我们就可以通过训练集这一历史数据来得出P(Y=0)=615,P(Y=1)=915 ,因为这是我们通过已有的经验得到的;最后举个例子,办公室失窃了,理论上每个人都可能是小偷;但我们可以根据对每个人的了解,人品分析得出一个可能性,比如张三偷的可能性为20%,李四偷的可能性为30%,而这就被称之为先验概率,是通过历史经验得来的。后验概率:所谓后验概率指的就是贝叶斯定理(公式)求解的结果;
例如,上面说的办公室失窃,我们可以通过先验概率知道,张三偷的可能性为20%,李四偷的可能性为30%,但事实是多少呢?那就得通过贝叶斯公式来进行计算了。极大似然概率估计:所谓极大似然概率估计,就是求解满足某个样本最有可能出现时的概率以及此时的参数值。详见
1.3 求解步骤
输入:
训练数据
输出:实例
(1)用极大似然估计计算先验概率及条件概率:
注:最好是结合着前面的例子来看公式
(2)对于给定的实例
(3)确定实例
2. 贝叶斯估计
从上面我们可以算是大致了解了朴素贝叶斯的过程,但是有一个不能忽略的问题就是:在训练集不充分的情况下,缺少某个维度的条件概率时,(例如,如果
式中
我们将上面的例子用拉普拉斯平滑(
易知:
以上的计算过程,就是用训练集训练好一个模型的参数,下面进行预测。
对于给定的
于是我们可以知道,样本
3. 概念辨析
对于不同的书,对于一些算法或算法行为有着不同的称谓,有的概念名称甚至连原书作者也拿捏不准,这也导致我们在初学翻阅各种资料时候发现一会儿又多了这个概念,一会儿又多了那个概念,及其痛苦。但是名称不重要,重要的是我们知道所指代的具体东西就行。下面就整理出笔者在学习中遇到过的各种“叫法”,仅供参考。
所有的算法都称之为贝叶斯分类器,朴素贝叶斯有三种叫法,加入平滑项后叫贝叶斯估计
4.示例
示例见此处
参考
- 《统计学习》
- 《Python与机器学习实战》
- 《Python机器学习及实践》
- 《机器学习实战》
- 朴素贝叶斯算法与贝叶斯估计
- 朴素贝叶斯算法中的M估计
- 朴素贝叶斯分类器与贝叶斯估计
- 简述朴素贝叶斯估计
- 朴素贝叶斯算法的参数的最大似然估计
- 贝叶斯决策、朴素贝叶斯、贝叶斯估计
- 朴素贝叶斯算法解析与应用
- 分类模型与算法--朴素贝叶斯
- 朴素贝叶斯算法
- 朴素贝叶斯算法入门
- 朴素贝叶斯算法
- 朴素贝叶斯算法
- 朴素贝叶斯分类算法
- 朴素贝叶斯分类算法
- 朴素贝叶斯分类算法
- 朴素贝叶斯分类算法
- 朴素贝叶斯算法
- 朴素贝叶斯算法
- 他丢了一亿多美元,被20吨的垃圾山压着……
- Codeforces 900D-Unusual Sequences
- 【笔记-C语言】 函数
- css的学习
- VTK 多平面重建(MPR)及三维切片显示
- 朴素贝叶斯算法与贝叶斯估计
- JAVA微信扫码支付模式二功能实现以及回调
- 最小生成树(Kruskal和Prim算法)
- SVPWM 电压矢量分布原理,为什么是(100-110-010-011-001-101-100)
- Windows7 下 pip设置默认豆瓣镜像源
- 数据结构11————二叉树的定义性质及储存
- 第十四周项目3
- Android Studio使用阿里云Aliyun Maven仓库
- 【笔记-C语言】 变量