机器学习-->贝叶斯网络
来源:互联网 发布:手机淘宝在哪复制链接 编辑:程序博客网 时间:2024/04/26 19:58
本篇博文主要总结贝叶斯网络相关知识。
复习之前的知识点
相对熵
相对熵,又称互熵,交叉熵,鉴别信息,
设
- 相对熵可以度量两个随机变量的“距离”。
- 一般的,
D(p||q)≠D(q||p) 。 D(p||q)≥0,D(q||p)≥0 。
互信息
两个随机变量
- 显然当
X,Y 互相独立时,P(X,Y)=P(X)P(Y) 这个时候,X,Y 距离最短,互信息为零。
信息增益
信息增益表示得知特征
定义:特征
对于两个随机变量
H(Y|X)=H(X,Y)−H(X) H(Y|X)=H(Y)−I(X,Y) H(Y|X)<H(Y) H(X|Y)<H(X) I(X,Y)=H(X)+H(Y)−H(X,Y)
显然,这即为训练数据集
贝叶斯公式和最大后验估计
贝叶斯估计是一种生成式模型。所谓生成式和判别式模型的区别在于:
- 通过
P(y|x) 直接得出的模型称为判别式模型。 P(y|x) 是由P(x|y) 得出的模型叫做生成式模型,也就是在类别已知的情况下,样本是怎么生成出来的。
给定某些样本
- 第一个等式:贝叶斯公式;
- 第二个等式:样本给定,则对于任何
Ai,P(D) 是常数,即分母仅为归一化因子 - 第三个箭头:若这些结论
A1、A2……An 的先验概率相等 (或近似),即P(A1)=P(A2)=...P(An) , 则得到最后一个等式:即第二行的公式,这时候其实是转成了求最大似然估计。
朴素贝叶斯
朴素贝叶斯的假设
一个特征出现的概率,与其他特征(条件)独立 (特征独立性)
- 其实是:对于给定分类的条件下,特征独立
每个特征同等重要(特征均衡性)
朴素贝叶斯的推导
朴素贝叶斯(Naive Bayes,NB)是基于“特征之间是独立的”这一朴素假设,应用贝叶斯定理的监督学习 算法。
对于给定的特征向量
类别
使用朴素的独立性 假设:
类别
在给定样本的前提下,
从而:
以上就是朴素贝叶斯通用化的推导,所有的朴素贝叶斯都可以这样推导出来。
根据样本使用
高斯朴素贝叶斯
根据样本使用
假设特征服从高斯分布,即:
参数使用
多项分布朴素贝叶斯
假设特征服从多项分布,从而,对于每个类别y, 参数为
参数
假定训练集为
其中:
α=1 称为Laplace 平滑。α<1 称为Lidstone 平滑。- 平滑操作除了避免出现零,还有增加模型的泛化能力的作用。
以文本分类为例
问题描述
- 样本:
1000 封邮件,每个邮件被标记为垃圾邮件或者非垃圾邮件 。 - 分类目标:给定第
1001 封邮件,确定它是垃圾邮件还是非垃圾邮件。 - 方法:朴素贝叶斯
问题分析
类别
词汇表,两种建立方法:
- 使用现成的单词词典;
- 将所有邮件中出现的单词都统计出来,得到词典。
记单词数目为
将每个邮件
若单词
贝叶斯公式:
特征条件独立假设 :
特征独立假设:
带入公式:
实际情况下,不需要考虑
等式右侧各项的含义:
P(xi|cj) :在cj (此题目,cj 要么为垃圾邮件1,要么为非垃圾邮件2)的前提下,第i 个单词xi 出现的概率 。P(xi) :在所有样本中,单词xi 出现的概率。P(cj) :在所有样本中,邮件类别cj 出现的概率。
由上面例子可以看出,朴素贝叶斯基于以下两条假设:
- 一个特征出现的概率,与其他特征(条件)独立(特征独立性),即是:对于给定分类的条件下,特征独立 。
- 每个特征同等重要(特征均衡性) 。
以上两条假设不一定正确,但是基于这两条假设的朴素贝叶斯在一些应用中效果却是不错的。
贝叶斯网络
把某个研究系统中涉及的随机变量,根据是否条件独立 绘制在一个有向图 中,就形成了贝叶斯网络。
贝叶斯网络(
一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系(或非条件独立)。若两个节点间以一 个单箭头连接在一起,表示其中一个节点是“因
每个结点在给定其直接前驱时,条件独立 于其非后继。
一个简单的贝叶斯网络
朴素贝叶斯就是把特征
全连接贝叶斯网络
每一对结点之间都有边连接:
一个“正常”的贝叶斯网络:
- 有些边缺失
直观上:
x1 和x2 独立x6 和x7 在x4 给定的条件下独立x1,x2,…x7 的联合分布:
对一个实际贝叶斯网络的分析:
贝叶斯网络的形式化定义
- G:有向无环图
- G的结点:随机变量
- G的边:结点间的有向依赖
- Θ:所有条件概率分布的参数集合
- 结点
X 的条件概率:P(X|parent(X))
通过贝叶斯网络判定条件独立—1
根据图模型,得:
从而:
因为
得:
即:在
通过贝叶斯网络判定条件独立—2
即:在
通过贝叶斯网络判定条件独立—3
在
以上三种情况的举例说明:
- 机器学习-->贝叶斯网络
- 机器学习之贝叶斯网络
- 机器学习:贝叶斯网络入门
- 机器学习算法----贝叶斯网络
- 机器学习之贝叶斯网络
- 机器学习之贝叶斯网络
- 机器学习:贝叶斯_3:贝叶斯网络
- 【机器学习】贝叶斯分类器:贝叶斯网络
- 机器学习_贝叶斯网络分类算法
- 机器学习03(贝叶斯网络)
- 【机器学习实战06】贝叶斯网络
- 机器学习 网络课程
- 机器学习-神经元网络
- IRTF,网络机器学习
- 机器学习-网络结构1
- 机器学习----贝叶斯分类器(贝叶斯网络)
- 机器学习第十五课(朴素贝叶斯,拉普拉斯修正,贝叶斯网络)
- 【机器学习算法模型】分类算法——贝叶斯网络
- 1345: 国际象棋
- list不能修改不存在的项 IndexError: list assignment index out of range
- document.body.scrollTop 值总为0的解决方法
- #define PINT int * typedef int * SINT; 这两的区别及define与undefine用法
- Prim算法求最小生成树的c++代码实现
- 机器学习-->贝叶斯网络
- centos7安装mysql
- 自己写一个简单的LinkedList
- BZOJ 3143 游走 (高斯消元 贪心)
- 面向对象之类和对象
- jquery.qrcode.js生成二维码插件&转成图片格式
- "could not create the java virtual machine"启动eclipse报错
- MapReduce计算模型
- 正则表达式总结