朴素贝叶斯

来源:互联网 发布:关于考研的淘宝店铺 编辑:程序博客网 时间:2024/06/07 03:58

朴素贝叶斯

flyfish

1 概率
2 朴素贝叶斯公式
3 朴素贝叶斯思想
4 解释

随机试验
1.可以在相同的条件下重复的进行。
2.每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果。
3.进行一次试验之前不能确定哪一个结果会出现。

样本空间
随机试验E的所有可能结果组成的集合称为E的样本空间,记为S

样本点
样本空间的元素即E的每个结果称为样本点

事件
试验E的样本空间S的子集为E的随机事件,简称事件

事件发生
在每次试验中,当且仅当这一子集中的一个样本点出现时,称这一事件发生

基本事件
由一个样本点组成的单点集,称为基本事件。例如抛硬币有两个基本事件,正面和反面。

必然事件
样本空间S包含所有的样本点,它是S自身的子集,每次式样它总是发生的,S称为必然事件

不可能事件
空集不包括任何样本点,它也作为样本空间的子集,它在每次试验都不发生,称为不可能事件

频数与频率
在在相同的条件下,进行了n次试验,在n次试验中,事件A发生的次数nA称为事件A发生的频数。
而比值nA/n 称为事件A发生的频率。

概率
设E是随机试验,S是它的样本空间,对于E的每一个事件A赋予一个实数,记为P(A),称为事件A的概率

等可能概型(古典概型)
特点
1试验的样本空间只包含有限个元素;
2试验中每个基本事件发生的可能性相同。
公式
设试验的样本空间为S={e1,e2,e3,…,en},若事件A包含k个基本事件,即A={ei1}⋃{ei1}⋃…{eik},这里i1,i2,…,ik是1,2,…,n中k个不同的数。则有:

P(A)=kj=1P({eij})=kn=AS

条件概率(Conditional probability)

定义
设A,B是两个事件,且P(A)>0,称P(B|A)=P(AB)P(A)
为在事件A发生的条件下,事件B发生的条件概率。

全概率公式

设试验E的样本空间为S,A为E的事件,
B1,B2,,Bn
为S的一个划分,且

P(Bi)>0(i=1,2...,n),

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)++P(A|Bn)P(Bn)

贝叶斯公式
设试验E的样本空间为S,A为E的事件,
B1,B2,,Bn
为S的一个划分,且
P(A)>0,P(Bi)>0(i=1,2,n),

P(Bi|A)=P(A|Bi)P(Bi)kj=1P(A|Bj)P(Bj)

简化
P(Bj|A)P(A)=P(A|Bj)P(Bj)

总结
P(AB)=P(AB)P(B)=P(B|A)P(A)P(B)

P(AB)=P(A)+P(B)P(AB)P(AB)=P(A)+P(B)AB(mutually exclusive)

P(AB)=P(A|B)P(B)=P(B|A)P(A)P(AB)=P(A)P(B)AB( independent)

P(AB)=P(AB)P(B)=P(B|A)P(A)P(B)

案例

某电子设备制造厂所用的元件是由三家元件制造厂提供的根据以往的记录有以下的数据:
元件制造厂 1 2 3
次品率 0.02 0.01 0.03
提供元件的份额 0.15 0.80 0.05

元件制造厂 次品率 提供元件的份额 1 0.02 0.15 2 0.01 0.80 3 0.03 0.05

设这三家工厂的产品在仓库中是均匀混合的且无区别的标志
(1)在仓库中随机地取一只元件,求它是次品的概率;
(2)在仓库中随机地取一元件,若已知取到的是只次品,为分析此次品出自何厂
求三家工厂生产的概率别是多少

解设A表示”取到的是一只次品”
Bi(i=1,2,3)表示”所取到的产品是由第i家工厂提供的
B1,B2,B3是样本空间的一个划分

已知

P(B1)=0.15,

P(B2)=0.80,

P(B3)=0.05,

P(A|B1)=0.02,

P(A|B2)=0.01,

P(A|B3)=0.03.

全概率公式就是求随机地取一只元件,它是次品的概率;

P(A)=P(A|B1)P(B1)+P(A|B2)P(B2)+P(A|B3)P(B3)

=0.02*0.15+0.01*0.8+0.03*0.05

=0.0125.

贝叶斯公式是求A发生的情况下求B1,B2,B3的概率

P(B1|A)=0.24,

P(B2|A)=0.64,

P(B3|A)=0.12

以下部分摘自《白话大数据与机器学习》

贝叶斯决策理论方法是统计模型决策中的一个基本方法,其基本思想是:
1、已知类条件概率密度参数表达式和先验概率
2、利用贝叶斯公式转换成后验概率
3、根据后验概率大小进行决策分类

简单地说,朴素贝叶斯算法是利用统计中的“条件概率”来进行分类的一种算法。前面的章节介绍的古典概型的概率计算方法,就是扔硬币的那种,穷举出所有的情况,然后看看每种情况的占比,这都是基于排列组合的思路去做概率分析。
朴素贝叶斯分类的方式不太一样。贝叶斯概率研究的是条件概率,也就是研究的场景就是在带有某些前提条件下,或者在某些背景条件的约束下发生的概率问题。

对贝叶斯公式的解释

在一个样本空间里有很多事件发生,Bi就是指不同的事件划分,并且用Bi可以把整个空间划分完毕,在每个Bi事件发生的同时都记录事件A的发生,并记录Bi事件发生下A发生的概率。等式右侧的分母部分就是Bi发生的概率和Bi发生时A发生的概率的加和,所以分母这一项其实就是在整个样本空间里A发生的概率。P(Bi|A)这一项是指A发
发生的情况下,Bi发生的概率。不难看出,左侧和右侧分母项相乘得到的是在全样本空间里,在A发生的情况下又发生Bi的情况的概率。右侧分子部分的含义是Bi发生的概率乘以Bi发生的情况下又发生A的概率。
所以最后等式两边就化简为

P(Bi|A)P(A)=P(A|Bi)P(Bi)

也就是说,在全样本空间下,发生A的概率乘以在发生A的情况下发生Bi的概率,等于发生Bi的概率乘以在发生Bi的情况下发生A的概率