机器学习信仰之朴素贝叶斯法

来源:互联网 发布:毕向东java视频百度云 编辑:程序博客网 时间:2024/05/16 19:09

敲黑板,划重点

上大学那会,贝叶斯定理是用来求条件概率的;现在才知道,贝叶斯定理其实是在讲先验、似然与后验的故事。 贝叶斯定理是一种信仰。


1、频率学派与贝叶斯学派

  1. 频率学派认为,概率表述一件事发生的频率,是客观存在的一个值;同时,样本X时随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布
  2. 贝叶斯学派认为概率是我们的个人的主观概念,表示我们对某件事发生的相信程度。待估计的概率theta是随机变量,服从一定的分布,而样本X时固定的,重点研究的是theta的分布。
    贝叶斯学派中有了三个概率:先验概率(Prior Probability)、似然函数(likelihood function)和后验概率(Posterior Probability);贝叶斯派思考的固定模式:先验分布+ 样本信息−>后验分布

2、生成模型与判别模型

这里写图片描述

3、 朴素贝叶斯法

朴素贝叶斯法,其中的朴素是指,特征条件独立假设,即输入特征之间是相互独立的。
朴素贝叶斯法是在特征条件独立假设的前提下,求得输入、输出的联合概率分布;再依据此模型,计算输入x下,依据贝叶斯定理求得最大后验概率的y。 可见,朴素贝叶斯法是生成模型。

3.1 基本原理

设输入空间X是n维(X1, …Xn); 输出空间Y是k维(c1, c2, ….ck);
朴素贝叶斯法通过训练数据学习X,Y的联合概率分布P(X, Y)。具体的:
先验概率:P(y=ck), k=1,2…K
条件概率分布:P(X=x|y=ck) = P(X1=x1, …Xn=xn | y=ck)
依据特征条件独立性的假设,
这里写图片描述

这样就可以利用贝叶斯定理求得联合概率分布。
计算得到联合概率分布后,利用模型预测新的输入x时,计算后验概率P(y = ck | x),求出最大后验概率的ck就是x的输出。
这里写图片描述
对每个Ck,上式的分母都是一样的;求最大后验等价于求
这里写图片描述

3.2 参数估计之极大似然估计

通过上面知道,学习意味着求先验P(Y=ck)和似然P(X=x | y=ck)。 通过样本,可以采用极大似然估计法估计这两个值:
这里写图片描述
其中,N是样本数量。
这里写图片描述

3.3 分类举例

有以下数据,求X=(2,S)的label
这里写图片描述

这里写图片描述

可见,朴素贝叶斯法的关键是,先由样本依据特征独立条件计算P(xi | ck),对于新输入x,就可以通过计算后验概率最大(这里,相当于联合概率最大)确定y。

不能直接从样本中去找联合概率,例如本例中不要直接肉眼看P(y=1 | (2,S)) 和P(y=-1 | (2, S)),(y=ck |(2, S))的组合甚至可以不出现在样本中,联合概率的计算需要用到独立特征的条件概率相乘;

3.4 参数估计之贝叶斯估计

使用极大似然估计样本的条件概率是,可能出现概率是0的情况。会影响后验概率的计算。为了避免这种情况,解决办法之一是采用贝叶斯估计:
这里写图片描述
其中lambda >0. lambda=0时是极大似然估计;lambda=1时,成为l阿普拉斯平滑(Laplace smoothing)

参考 《统计学习方法》

原创粉丝点击