朴素贝叶斯网络举例

来源:互联网 发布:c语言基础编程题目 编辑:程序博客网 时间:2024/05/19 20:40

4. 举例

给定训练样本集,样本属性age, income, student, credit_rating描述,类标号属性buy-computer,具有两个不同值({yes, no}) C1对应于类buy-comput=yes,C2no,待分类样本为(age=”<=30”, income=”medium”, student=”yes”, credit-rating = “fair”),求利用朴素贝叶斯网络分类器预测待分类样本的类标号。

1)首先建立朴素贝叶斯网络的结构

C为总的条件概率,xi为第i类属性的条件概率。

2)建立朴素贝叶斯网络结点的参数

共有14条记录,其中买电脑的9人,没买的5人,则结点C的条件概率表为:

P(buy-computer)=”yes”

9/14

P(buy-computer)=”no”

5/14

结点X0表示年龄的条件概率表:

 

Buy-computer=”yes”

Buy-computer=”no”

Age”<=30”

2/9

3/5

Age”30…40”

4/9

0

Age”>40”

3/9

2/5

结点x1表示收入的条件概率表:

 

Buy-computer=”yes”

Buy-computer=”no”

Income=high

2/9

2/5

Income=medium

4/9

2/5

Income=low

3/9

1/5

结点x2表示学生的条件概率:

 

Buy-computer=”yes”

Buy-computer=”no”

student=yes

6/9

1/5

student=no

3/9

4/5

结点x3表示信用的条件概率:

 

Buy-computer=”yes”

Buy-computer=”no”

Credit_rating=fair

6/9

2/5

Credit-rating=excellent

3/9

3/5

(3)建立朴素贝叶斯网络推理(分类)

结构学习和参数学习都是对训练数据集进行学习,训练数据集每一个样本的类标号是已知的,分类是通过结构学习和参数学习所建立的贝叶斯网络模型对类标号未知的样本预测其类标号的过程,该过程首先计算待分类样本属于每个类标号的后验概率,把具有最大后验概率的类作为该样本的类标号。

P(C = ci | x1 = a1, x2 = a2, …, xn =  an)

= P(C = ci, x1 = a1, x2 = a2, …, xn =  an) / P(x1 = a1, x2 = a2, …, xn =  an), i = 1, 2, 3,...,m

由于m个式子的分母是一样的,因此决定分类结果的是m个式子的分子,从理论上讲,精确计算联合概率分布P(C, X1, X2, …, Xn) 是非常困难的,为了方便计算,假设有

其中,Paxi)表示结点xi的父节点。

根据上述说明可得:

P(buy_computer=”yes” ) = 9/14

P(buy_computer=”no” ) = 5/14

P(age=”<30”|buy_computer=”yes” ) = 2/9

P(age=”<30”|buy_computer=”no” ) = 3/5

P(income=”medium”|buy_computer=”yes” ) = 4/9

P(income=”medium”|buy_computer=”no” ) = 2/5

P(student=”yes”|buy_computer=”yes” ) = 6/9

P(student=”yes”|buy_computer=”no” ) = 1/5

P(credit_rating=”fair”|buy_computer=”yes” ) = 6/9

P(credit_rating=”fair”|buy_computer=”no” ) = 2/5

因此:

P( X | buy-computer=”yes”) = 2/9*4/9*6/9=0.044

P(X | buy-computer=”no”) = 3/5*2/5*1/5*2/5=0.0119

P( buy_computer = ”yes” |X ) = P( X | buy_computer =”yes” ) P( buy_computer=”yes” )

= 0.44*9/14 = 0.028

同样,可以计算不买电脑的可能为0.007,所以预测其为买电脑。

朴素贝叶斯网络的特点:

(1)       优点 网络结构非常简单,建立网络是减少,参数学习与分类过程简单

(2)       缺点 由于类条件独立假设割断了属性间的联系,使得其网络结构不合理,导致了朴素贝叶斯网络分类器的分类精度相对较低。

原创粉丝点击