机器学习笔记十三 朴素贝叶斯

来源:互联网 发布:access数据录入窗体 编辑:程序博客网 时间:2024/05/29 19:35

一、简介

贝叶斯分类是一类分类算法的总称,这类算法以贝叶斯定理为基础。
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

定理定义
贝叶斯定理也称贝叶斯推理,早在18世纪,英国学者贝叶斯(1702~1763)曾提出计算条件概率的公式用来解决如下一类问题:假设H[1],H[2]…,H[n]互斥且构成一个完全事件,已知它们的概率P(H[i]),i=1,2,…,n,现观察到某事件A与H[1],H[2]…,H[n]相伴随机出现,且已知条件概率P(A/H[i]),求P(H[i]/A)。
贝叶斯公式(发表于1763年)为:

P(H[i]|A)=P(H[i])P(AH[i])/P(H[1])P(AH[1])+P(H[2])P(AH[2])++P(H[n])P(AH[n])

这就是著名的“贝叶斯定理”,一些文献中把P(H[1])、P(H[2])称为基础概率,P(A│H[1])为击中率,P(A│H[2])为误报率[1]
–百度百科

最广泛使用的两类分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。

朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。

P(Category|Document)=P(Document|Category)P(Category)/P(Document)

二、条件概率

假设现有一个装了7块石头的罐子,其中3块白,4块黑。
如果从罐子中随机取出一块石头,那P(白)=3/7

现把7石头放入两个桶:

A桶 B桶 ○○●● ○●●

要计算 P(白)或P(黑),需要先知道石头所在桶的信息会不会改变结果,这就是所谓条件概率,计为P(白|桶B),
可得出:
P(白|桶A)=2/4
P(白|桶B)=1/3

而贝叶斯准则给出一个有效的计算条件概率的方法:
如果已知P(x|c),要求p(c|x),则:

p(c|x)=p(x|c)p(c)p(x)

三、使用条件概率来分类

贝叶斯决策理论要求计算两个概率p1(x,y)和p2(x,y):

  • 如果p1(x,y)>p2(x,y),那么属于类别1
  • 如果p2(x,y)>p1(x,y),那么属于类别2

但这两个准则并不是贝叶斯决策理论的所有内容。使用p1( ) 和 p2( )只是为了尽可能简化描述,而真正需要计算和比较的是p(c1x,y)和p(c2|x,y)。

原创粉丝点击