朴素贝叶斯文本分类应用

来源：互联网发布：百度网盘破解知乎编辑：程序博客网时间：2024/04/27 23:39

在这里介绍两种分类应用。分别Multivariate Bernouli Even Model多元伯努利事件模型和 Mutinomial Event Model多项式事件模型
由简单到复杂原则，先搞多元伯努利！

多元伯努利的思想是，按照训练数据，我们建立一个vocabulary,这个vocabulary 相当于一个向量，我们遍历一个邮件的文字的时候，出现的word,都会在相应的vocabulary位置上记录为1。
这里写图片描述
学习模型分为以下几步
1.假设模型
2.设定参数,表示概率
3.求最大似然,求出参数
4.用所得的参数,再去验证测试数据

在多元伯努利模型中,我们假设的是在给定的一个判别里(比如这个是垃圾邮件)里,词语词之间是独立分布的.说明如下
这里写图片描述
要注意的是并不是x之间是独立分布的，而是在给定y的判别条件下，x之间是独立分布的。这正是取名叫朴素贝叶斯的原因

这样我们就进行第二部，表示概率
这里写图片描述

表示似然
这里写图片描述

最终我们求得的参数是这样的值，具体的证明过程就不写了，机器学习就是知其然，知其所以然，就可以了，至于怎么特么计算然，在必要的时候计算就可以啦
这里写图片描述

具体的参数意义再做一个标注：

这里写图片描述

我们现在得到了参数，接下来就是对测试数据进行概率计算，来判断那种情况更有可能
这里写图片描述

以上就是多元伯努利模型，我们接下来介绍第二种方法，因为传说第第二种方法准确率更高，具体会在后续的博客中去验证一下这个观点。

现在隆重介绍我们的，Mutinomial Event Model多项式事件模型

多项事件模型，顾名思义就是模型假设是一个多项式分布。
具体的意思就是
这里写图片描述

我们来考虑一下这种模型的假设，在这种假设里，在给定一个判别中，email里买个位置词分布都是相同的分布，看看是不是这样呢？这点与我们贝叶斯文本分类伯努利模式就不同，在伯努利分布里并没有这样的假设，而是服从与实际情况，email里出现这个词我就记录，没出现我就不记录吗。所以多项式事件模型他是一种强假设，尽管与实际情况不符合，但是他的分类效果依然很好，这个是听说，我的后期博客里会去验证这点。

现在我们开始模型建立4步骤，把上面的复制过来

1.假设模型
2.设定参数,表示概率
3.求最大似然,求出参数
4.用所得的参数,再去验证测试数据

模型假设我们已经完成，参数表示是这样

这里写图片描述

表示概率
这里写图片描述

求似然函数
这里写图片描述
然后再把参数代入到概率函数中去检测测试集数据就可以了

以上就是关于朴素贝叶斯文本分类的概念的介绍。

0 0