Machine Learning 4

来源:互联网 发布:淘宝淘口令有危险吗 编辑:程序博客网 时间:2024/06/05 16:35

2017-11-23@erixhao技术极客TechBooster


AI

系列四,距上篇博文已经近一个半月之久了,是时候再动笔写一篇了,不然无法向几千个公众号读者粉丝交代,感谢大家不掉粉的同时还在增加。

本文将简单介绍在机器学习领域广为使用的朴素贝叶斯算法及其简单实现,属于较为基础普及,高手慎入。

目录

托马斯·贝叶斯(Thomas Bayes)

条件概率

条件概率定义

链式法则

贝叶斯公式

离散型

连续型

贝叶斯概率论

主观概率论

贝叶斯概率论意义

朴素贝叶斯(Naive Bayesian)

工作流程

机器学习中应用

小结

1 托马斯·贝叶斯(Thomas Bayes)


托马斯·贝叶斯(Thomas Bayes),18世纪英国的神学家、数学家;

有趣的是,贝叶斯当年发明发现概率论是为了证明上帝的存在。事实上,在18,19世纪的西方文明,当科学理论研究到一定程度,都会去信奉,投身,研究宗教,神学,究其原因,显然与其所处环境及从小接触宗教,神学有莫大关系,另外引申含义则是当科学研究越深入,到达一定高度后,越觉得大道至简,不可思议,与很多宗教,神学,佛教等观念接近或者一致,世界宇宙高度统一的“大统一场理论”。

2 条件概率

条件概率

条件概率是贝叶斯公式的基础,可以进行些许变换直接推导出贝叶斯公式,有必要仔细推敲研究一下。

数学定义: P(A|B) = P(AB) / P(B)(P(B) > 0)

条件概率指A, B 两个事件,随机事件A在另一个随机事件B已经发生的条件下(事实),其发生的概率,记作P(B|A),等式变换一下:

=> P(AB) = P(A|B) * P(B) = P(B|A) * P(A)

上述蓝色推导出的公式含义是指,事件A和事件B同时发生的概率等于在事件A发生的条件下B也发生的概率乘以事件A发生的概率;或者也等于事件B发生的条件下A也发生的概率乘以事件B发生的概率;

数学家都喜欢玩绕口令,我们还是看图说话吧,一图抵千言:


根据上面的文氏图,可以清楚的看到中间阴影部分表示事件A,B都发生的概率,即联合概率;对于条件概率在事件B发生的情况下,事件A也发生的概率,即P(A|B) 等于中间阴影面积除以B的面积(P(AB)/ P(B):

1) P(A|B)  = P(AB) / P(B)

反之亦然,对于条件概率在事件A发生下,事件B也发生的概率,即P(B|A),同理等于中间阴影面积大小除以A的面积(P(AB)/ P(A):

2) P(B|A) = P(AB) / P(A)

由1),2)变换即得到了我们上面推导出来条件概率公式

P(AB) = P(A) P(B|A) = P(B) P(A|B)

上面的文氏图A, B看起来大小面积一样,容易让人产生误解,我们再看下面一个图更容易理解体会条件概率的含义:


P(A|B), 表示若事件B已经发生,为使A也发生,试验结果必须满足既在B中有在A中的样本点,即此点必定属于AB:

P(A|B)  = P(AB) / P(B)

而中间的交集即联合概率,相对比条件概率,联合概率则要求更高:

P(X=a,Y=b)

首先包含多个条件,并且所有条件同时成立的概率。

链式法则/乘法公式

链式法则或称作乘法法则,通常用于计算多个随机变量的联合概率,特别是在变量之间相互为(条件)独立时会非常有用,我们随后的朴素贝叶斯算法就是借助链式法则展开的。

两个随机变量的联合概率:

对于上边的两个随机变量的联合概率

P(AB) = P(A) P(B|A)

对于N个随机变量的联合概率则如下展开:


即,简写为如下公式:


在实际中使用链式法则时,尤其在机器学习中,则可以较为妥善的选择随机变量的展开顺序,从而可以让概率计算变得更简单,快速

原创粉丝点击