机器学习-->贝叶斯网络

来源：互联网发布：手机淘宝在哪复制链接编辑：程序博客网时间：2024/04/26 19:58

本篇博文主要总结贝叶斯网络相关知识。

复习之前的知识点

相对熵

相对熵，又称互熵，交叉熵，鉴别信息，Kullback 熵，Kullback−Leible 散度等。

设p(x)、q(x) 是X 中取值的两个概率分布，则p 对q 的相对熵是 :

D (p | | q) = \sum x p (x) l o g p ( x ) q ( x ) = E p (x) l o g p ( x ) q ( x )

相对熵可以度量两个随机变量的“距离”。
一般的，D(p||q)≠D(q||p)。
D(p||q)≥0，D(q||p)≥0。

互信息

两个随机变量X，Y 的互信息，定义为X，Y 的联合分布和独立分布乘积的相对熵。

I (X, Y) = D (P (X, Y) | | P (x) P (Y)

I (X, Y) = \sum x, y P (x, y) l o g P ( x , y ) p ( x ) p ( y )

显然当X,Y 互相独立时，P(X,Y)=P(X)P(Y) 这个时候，X,Y距离最短，互信息为零。

信息增益

信息增益表示得知特征A 的信息而使得类X 的信息的不确定性减少的程度。

定义：特征A 对训练数据集D 的信息增益 g(D,A)，定义为集合D 的经验熵H(D) 与特征 A 给定条件下D 的经验条件熵H(D|A) 之差，即：

g (D, A) = H (D) - H (D | A)

对于两个随机变量X,Y，关于熵和互信息的一些总结公式：

H(Y|X)=H(X,Y)−H(X)
H(Y|X)=H(Y)−I(X,Y)
H(Y|X)<H(Y)
H(X|Y)<H(X)
I(X,Y)=H(X)+H(Y)−H(X,Y)

显然，这即为训练数据集D 和特征A 的互信息。

贝叶斯公式和最大后验估计

贝叶斯估计是一种生成式模型。所谓生成式和判别式模型的区别在于：

通过P(y|x) 直接得出的模型称为判别式模型。
P(y|x) 是由P(x|y) 得出的模型叫做生成式模型，也就是在类别已知的情况下，样本是怎么生成出来的。

P (A | D) = P ( D | A ) p ( D )

给定某些样本D ，在这些样本中计算某结论A1、A2……An 出现的概率，即P(Ai|D)。

这里写图片描述

第一个等式：贝叶斯公式；
第二个等式：样本给定，则对于任何Ai,P(D) 是常数，即分母仅为归一化因子
第三个箭头：若这些结论A1、A2……An 的先验概率相等 (或近似)，即P(A1)=P(A2)=...P(An)，则得到最后一个等式：即第二行的公式，这时候其实是转成了求最大似然估计。

朴素贝叶斯

朴素贝叶斯的假设

一个特征出现的概率，与其他特征(条件)独立 (特征独立性)

其实是：对于给定分类的条件下，特征独立

每个特征同等重要(特征均衡性)

朴素贝叶斯的推导

朴素贝叶斯(Naive Bayes，NB)是基于“特征之间是独立的”这一朴素假设，应用贝叶斯定理的监督学习 算法。

对于给定的特征向量X1,X2,...,Xn

类别y 的概率可以根据贝叶斯公式得到：

这里写图片描述

使用朴素的独立性 假设：

P (x i | y, x 1, . . ., x i - 1, x i + 1, . . ., x n) = P (x i | y)

类别y 的概率可简化为：

P (y | x 1, x 2, . ., x n) = P ( y ) P ( x 1 , x 2 , . . . , x n | y ) p ( x 1 , x 2 , . . . , x n ) = P ( y ) \prod n i = 1 P ( x i | y ) p ( x 1 , x 2 , . . . , x n )

在给定样本的前提下， p(x1,x2,...,xn) 是常数：

P (y | x 1, x 2, . . ., x n) \propto P (y) \prod i = 1 n P (x i | y)

从而：

y^= a r g m a x P (y) \prod i = 1 n P (x i | y)

以上就是朴素贝叶斯通用化的推导，所有的朴素贝叶斯都可以这样推导出来。

根据样本使用MAP(MaximumAPosteriori) 估计P(y)，建立合理的模型估计P(xi|y)，从而得到样本的类别。

y^= a r g m a x P (y) \prod i = 1 n P (x i | y)

高斯朴素贝叶斯

根据样本使用MAP(MaximumAPosteriori) 估计P(y)，建立合理的模型估计 P(xi|y)，从而得到样本的类别。

y^= a r g m a x P (y) \prod i = 1 n P (x i | y)

假设特征服从高斯分布，即：

这里写图片描述

参数使用MLE （最大似然估计）估计即可。

多项分布朴素贝叶斯

假设特征服从多项分布，从而，对于每个类别y，参数为 θy=(θy1,θy2,θy2,...,θyn)，其中n 为特征的数目，P(xi|y) 的概率为 ,θyi。

参数θyi 使用MLE 估计的结果为：

这里写图片描述

假定训练集为T，有:

这里写图片描述

其中：

α=1 称为Laplace 平滑。
α<1 称为Lidstone 平滑。
平滑操作除了避免出现零，还有增加模型的泛化能力的作用。

以文本分类为例

问题描述

样本：1000 封邮件，每个邮件被标记为垃圾邮件或者非垃圾邮件。
分类目标：给定第1001 封邮件，确定它是垃圾邮件还是非垃圾邮件。
方法：朴素贝叶斯

问题分析

类别c ：垃圾邮件c1，非垃圾邮件c2。
词汇表，两种建立方法：

使用现成的单词词典；
将所有邮件中出现的单词都统计出来，得到词典。

记单词数目为N 。

将每个邮件m 映射成维度为N 的向量x。

若单词wi 在邮件m 中出现过，则xi=1，否则，xi=0。即邮件的向量化：m=(x1,x2……xN)

贝叶斯公式：P(c|x)=P(x|c)∗P(c)/P(x) ，注意这里x 是向量。

特征条件独立假设 ：P(x|c)=P(x1,x2…xN|c)=P(x1|c)∗P(x2|c)…P(xN|c)

特征独立假设：P(x)=P(x1,x2…xN)=P(x1)∗P(x2)…P(xN)

带入公式：

P (c | x) = P (x | c) * P (c) / P (x)

实际情况下，不需要考虑

P(x)，故只剩下特征条件独立假设。

等式右侧各项的含义：

P(xi|cj)：在cj (此题目，cj 要么为垃圾邮件1，要么为非垃圾邮件2)的前提下，第i 个单词xi出现的概率。
P(xi) ：在所有样本中，单词xi 出现的概率。
P(cj) ：在所有样本中，邮件类别cj 出现的概率。

由上面例子可以看出，朴素贝叶斯基于以下两条假设：

一个特征出现的概率，与其他特征(条件)独立(特征独立性)，即是：对于给定分类的条件下，特征独立。
每个特征同等重要(特征均衡性) 。

以上两条假设不一定正确，但是基于这两条假设的朴素贝叶斯在一些应用中效果却是不错的。

贝叶斯网络

把某个研究系统中涉及的随机变量，根据是否条件独立 绘制在一个有向图 中，就形成了贝叶斯网络。

贝叶斯网络(BayesianNetwork)，又称有向无环图模型(directed acyclic graphical model,DAG)，是一种概率图模型，根据概率图的拓扑结构，考察一组随机变量X1,X2...Xn 及其n 组条件概率分布
(Conditional Probability Distributions,CPD) 的性质。

一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因(parents)”，另一个是“果(children)”，两节点就会产生一个条件概率值。