朴素贝叶斯法
来源:互联网 发布:淘宝助理初始化未响应 编辑:程序博客网 时间:2024/05/17 09:01
Author: DivinerShi
朴树贝叶斯方法其实就是一个根据先验求后验的过程。
优点:思想简单,实现方便,适合小规模数据,适合多分类问题;
缺点:需要基于一定的假设,假设各个特征之间相互独立;对输入数据的表现形式较为敏感。
比如有一堆橘子,其中大部分青皮的,光滑的,小个的橘子比较酸,大部分黄皮的,粗糙的,大个的橘子比较甜。那么现在现在来了一个青皮的,光滑的,大个的橘子,我们就可以根据之前的先验知识,去计算这个橘子是酸的还是甜的概率,并将概率最大的作为它的预测的酸甜度。
用数学描述:
即通过先验条件概率分布来计算后验概率分布
是总类别的第k个的意思。Y是类别,X是样本。
朴素贝叶斯是基于条件独立性假设的,它对条件概率分布作了条件独立性的假设。如下:
这里的表示x的第1个特征
这个假设就是说用于分类的样本的各个特征在类确定的条件下都是条件独立的。但是真实情况下,样本的不同特征总是存在一定的相关性,所以朴素贝叶斯因该假设变得简单,也因该假设影响了一定的分类准确度。
因此,对给定的输入x,可以通过如下公式计算后验概率分布,并将后验概率最大的类作为x的类别,后验概率计算根据贝叶斯定理得:
再把(1)带入(2),可得
根据这个公司就可以算出样本属于每个类的概率,然后找出概率值最大的就可以了,
其中上式中,分母都是一样的,而我们只需要找到最大的,那么完全可以把分母去掉、
具体的概率计算方法(参数估计)-极大似然估计
分布解释上面式子中用到的各个概率的计算方法
先验概率,就是取得某个类的概率,直接用该类在整个数据集中出现的次数计算,得
然后设第j个特征可能取值的集合为,条件概率的极大似然估计是
式中,是第i个样本的第j个特征;是第j个特征可能取的第l个值;I为指示函数.
整个过程:
输入:训练数据,其中,是第i个样本的第j个特征,是第j个特征可能取的第l个值,,样本x;
输出:样本x的类别。
1.计算先验概率以及条件概率
2.对于给定的样本,得
3.确定样本x的类别
参考:
统计学习方法-李航
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法
- 朴素贝叶斯法(NB)
- [统计学习方法]朴素贝叶斯法
- 第四章 朴素贝叶斯法
- 2、朴素贝叶斯法
- 朴素贝叶斯法的参数估计
- Android Bilibili网站数据获取一 题目分类获取
- corosync+pacemaker实现集群管理
- Python list循环删除元素
- < 题目 > LeetCode
- Linux-4.9.2内核在mini2440上的移植(六)——修改MD9000驱动
- 朴素贝叶斯法
- NB-IOT之一个完整的BC95 UDP从开机到数据发送接收过程
- 谈一谈mmap
- phaser模拟百米赛跑
- HDU 1062 字符串翻转(字符串,水)
- 今天的代码鼓励花
- 国家气象局天气预报SmartWeather API
- Oracle11g下载地址--多平台下的32位和64位
- Java后台框架篇--Struts与SSH