朴素贝叶斯

来源:互联网 发布:php倒计时提示 编辑:程序博客网 时间:2024/06/05 08:05

优缺点

优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。

贝叶斯决策理论的核心思想,即选择具有最高概率的决策。

条件概率

p(A|B)=p(A,B)p(B)=p(B|A)p(A)p(B)

朴素贝叶斯是贝叶斯分类器的一个扩展,是用于文档分类的常用算法。
朴素贝叶斯的两个假设:
假设特征之间相互独立;
假设特征同等重要。

对于分类而言,使用概率有时要比使用硬规则更为有效。贝叶斯概率及贝叶斯准则提供了一种利用已知值来估计未知概率的有效方法。

可以通过特征之间的条件独立性假设,降低对数据量的需求。独立性假设是指一个词的出现概率并不依赖于文档中的其他词。当然我们也知道这个假设过于简单。这就是之所以称为朴素贝叶斯的原因。尽管条件独立性假设并不正确,但是朴素贝叶斯仍然是一种有效的分类器。

利用现代编程语言来实现朴素贝叶斯时需要考虑很多实际因素。下溢出就是其中一个问题,它可以通过对概率取对数来解决。词袋模型在解决文档分类问题上比词集模型有所提高。还有其他一些方面的改进,比如说移除停用词,当然也可以花大量时间对切分器进行优化。