机器学习笔记(五)——朴素贝叶斯分类

来源:互联网 发布:北京数据分析师工资 编辑:程序博客网 时间:2024/06/04 18:16

一、分类问题

分类实际上是我们在日常生活中经常使用的。比如说,在工作中,把自己手头的任务分为轻重缓急,然后按照优先级去完成它们。

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

从数学的角度看C={c1,c2,,ck}是类别的集合,集合X={x1,x2,,xk}是输入集合 。这里,对于给定的输入x计算后验概率最大的c

二、概率相关


P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X)


P(Y|X)=P(X|Y)P(Y)P(X)1

P(X,Y)XY的联合分布,训练数据集

T={(x1,y1),(x2,y2),,(xn,yn)}

是由P(X,Y)独立同分布产生的。

三、朴素贝叶斯方法

对于给定的输入x, 需要输出y,使得P(Y=ck|X=x)最大。由1式可知,分母是常数,我们使分子的最大化即可。

其中,P(Y=ck),k=1,2,,K 称为先验概率分布。这项可以简单的求出。

P(X=x|Y=ck)=P(X(1)=x(1),,X(n)=x(n)|Y=ck)

由于上式有指数型的参数,所以很难估计,为了便于计算,假设输入向量x的各个特征之间是条件独立的:

P(X=x|Y=ck)=P(X(1)=x(1),,X(n)=x(n)|Y=ck)=j=1nP(X(j)=x(j)|Y=ck)

这也是朴素贝叶斯名字的来源。

则,最终结果

y=f(x)=argmaxckP(Y=ck)j=1nP(X(j)=x(j)|Y=ck)

四、总结

朴素贝叶斯实际上是学到生成数据的机制,即它是生成模型。条件独立的假设说明分类特征是条件独立的,这个假设使得计算大大简化,但是有时也牺牲了一定的准确性。

0 0
原创粉丝点击