朴素贝叶斯详解

来源：互联网发布：java技术培训编辑：程序博客网时间：2024/06/04 19:39

朴素贝叶斯分类是一种十分简单的分类算法，它的核心思想就是：求解某样本在此特征组合情况下属于各个类别的概率，哪个类别对应的概率最大，就猜测属于该类别。举个例子，当你看到今天的温度，湿度和空气状况，判断今天属于春天还是冬天；假如你在北京，今天气温5度，干燥，轻度雾霾，那么你就很可能觉得今天应该是冬天了；就是根据一组特征值来判断属于哪种类别的概率大。

其数学定义如下：

假设类别集合为C={c1,c2,...,cn}，特征集合为A={A1,A2,...,An}。在某一组特征值为{a1,a2,...,an}的情况下，求解属于某类别ci的概率，这其实是一个条件概率，该概率为:

p (c i | a 1, a 2, . . ., a n)

在实际应用中，直接求解这个值可能有些不现实，我们可以根据贝叶斯定理进行变换一下:

p (c i | a 1, a 2, . . ., a n) = p ( c i ) * p ( a 1 , a 2 , . . . , a n | c i ) p ( a 1 , a 2 , . . . , a n )

用朴素的语言可以表达为：

p o s t e r i o r (后 验 概 率) = p r i o r ( 先 验 概 率 ) * l i k e l i h o o r ( 似 然 概 率 ) e v i d e n c e ( 边 际 概 率 )

实际中，我们只关心分子部分，因为分母不依赖于类别

C而且特征

{a1,a2,...an}的值是给定的，于是分母可以认为是一个常数。这样求解重点就等价于

p(ci)p(ci|a1,...,an),重复使用链式法则，可将该式写成条件概率的形式，如下所示：

p(ci)p(ci|a1,...,an)

=p(ci)p(ci|a1)p(a2,a3,...,an|ci,a1)

=p(ci)p(ci|a1)p(a2|ci,a1)p(a3,...,an|ci,a1,a2)

=p(ci)p(ci|a1)p(a2|ci,a1)p(a3|c,a1,a2)...p(an|ci,a1,...,an−1)

由于朴素贝叶斯假设各特征之间是相互独立的，则有：

p (a i | C, a j) = p (a i | C)

所以有:

p (c i) p (c i | a 1, . . ., a n) = p (c i) p (a 1 | c i) . . . p (a n | c i)

= p (c i) \prod k = 1 n p (a k | c i)

而

p(ci)我们一般用类别

i的样本数量除以总样本数量来估计，即：

p (c i) = D ( i ) : 类 别 i 样 本 数 量 D : 总 的 样 本 数 量

而对于

p(ak|ci)，只需要找出所有的类别为i的样本中，第k个属性中，取值为

ak的比例。

这样便可以算出每种类别对应的p(ci|a1,a2,...,an)值，而这个p值较大的类就是该特征值对有可能所属的类别。

离散型举例

下图是一个例子：根据天气状况决定要不要去打球：
这里写图片描述

现在假设有一个新的样本，{sunny,cool,high,true}
我们可以求解两类分别对应的概率p(play=yes|sunny,cool,high,true)和p(play=no|sunny,cool,high,true)，假设前者为py后者为pn，根据前面的:

p (c i | a 1, a 2, . . ., a n) = p ( c i ) * p ( a 1 , a 2 , . . . , a n | c i ) p ( a 1 , a 2 , . . . , a n )

由于分母都相同，可以不同考虑，仅仅去比较分子的大小。所以转化为计算分子部分，求解分子部分公式为：

p (c i) p (c i | a 1, . . ., a n) = p (c i) \prod k = 1 n p (a k | c i)

则有：

py=p(yes)∗p(sunny|yes)∗p(cool|yes)∗p(high|yes)∗p(true|yes)

pn=p(no)∗p(sunny|no)∗p(cool|no)∗p(high|no)∗p(true|no)

p y = 0.2; p n = 0.8

此时

pn>py，所以，不会出去打球。

连续型举例:

对于连续型的情况，数学推导过程都差不多，但是在计算各种概率时不能仅仅用样本比例来求解，试想一下，测试样本中特征的取值可能压根就没有在已知样本中出现，这时候需要预测一下特征的分布情况（如果分布未知，一般用高斯分布，高斯分布其实就是正态分布，只是叫法不一样）。

而我们需要用已知的样本数据来求解分布的未知参数（例如高斯分布模型中的参数的均值和方差），得到分布的参数之后，就可以根据输入的值来得到相应的概率。

下面是一个连续性的例子:

根据身高，体重和脚的尺寸来猜测性别。样本数据如下图所示:

这里写图片描述

现在我们有一个测试样本，{6,130,8}，我们需要判断这个样本的性别。同样，我们仅仅计算分子，分母不考虑，因为是一样的。
首先求解先验概率：
p(男)=0.5,p(女)=0.5

然后计算似然概率:
以身高为例，男性身高的高斯分布为:

p (h e i g h t | 男) = 1 2 π σ 2 - - - - \sqrt e x p (- ( x - μ ) 2 2 σ 2)

其中

{μ=5.855,σ2=3.6033e−02}，将

x=6带入，可以得到

p(height=6|男)=1.5789,同理可以计算得:

p(weight=130|男)=5.9881e−06,p(footsize=8|男)=1.3112e−3

p(height=6|女)=2.2346e−1,p(weight=130|女)=1.6789e−2,p(footsize=8|女)=2.8669e−04

最终带入公式可以得:

{p m a l e = 6.1984 e - 09, p f e m a l e = 5.3778 e - 04}

显然为女性的概率更大，所以猜测是女性。

阅读全文

'); })();