朴素贝叶斯法

来源：互联网发布：淘宝助理初始化未响应编辑：程序博客网时间：2024/05/17 09:01

Author: DivinerShi
朴树贝叶斯方法其实就是一个根据先验求后验的过程。
优点：思想简单，实现方便，适合小规模数据，适合多分类问题；
缺点：需要基于一定的假设，假设各个特征之间相互独立；对输入数据的表现形式较为敏感。

比如有一堆橘子，其中大部分青皮的，光滑的，小个的橘子比较酸，大部分黄皮的，粗糙的，大个的橘子比较甜。那么现在现在来了一个青皮的，光滑的，大个的橘子，我们就可以根据之前的先验知识，去计算这个橘子是酸的还是甜的概率，并将概率最大的作为它的预测的酸甜度。

用数学描述：

即通过先验这里写图片描述条件概率分布来计算后验概率分布
是总类别的第k个的意思。Y是类别，X是样本。
朴素贝叶斯是基于条件独立性假设的，它对条件概率分布作了条件独立性的假设。如下：

这里的表示x的第1个特征
这个假设就是说用于分类的样本的各个特征在类确定的条件下都是条件独立的。但是真实情况下，样本的不同特征总是存在一定的相关性，所以朴素贝叶斯因该假设变得简单，也因该假设影响了一定的分类准确度。
因此，对给定的输入x，可以通过如下公式计算后验概率分布这里写图片描述，并将后验概率最大的类作为x的类别，后验概率计算根据贝叶斯定理得：

再把（1）带入（2），可得

根据这个公司就可以算出样本属于每个类的概率，然后找出概率值最大的就可以了，

其中上式中，分母都是一样的，而我们只需要找到最大的，那么完全可以把分母去掉、
这里写图片描述