信息熵与贝叶斯网络
来源:互联网 发布:淘宝分析数据怎么分析 编辑:程序博客网 时间:2024/06/05 01:57
一、信息熵
1.相对熵
又称互熵,交叉熵,KL散度。设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是
相对熵可以度量两个随机变量的“距离”
2.互信息
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
3.信息增益(可用于决策树构建)
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即g(D,A)=H(D)-H(D|A),显然,这即为训练数据集D和特征A的互信息。
二、贝叶斯网络
1.贝叶斯公式
给定某些样本D,在这些样本中计算某些结论A1、A2、.........An出现的概率,即P(Ai|D)
第一个等式:贝叶斯公式;
第二个等式:样本给定,则对于任何Ai,P(D)均为常数,仅为归一化因子;
第三个箭头:若这些结论A1,A2,.....An的先验概率相等(或近似),则得到最后一个等式,即第二行的公式。
2.朴素贝叶斯的假设
一个特征出现的概率,与其他特征(条件)独立(特征独立性),其实是对于给定分类的条件下,特征独立。
p(x1|c1)是指在垃圾邮件c1这个类别中,单词x1出现的概率。
定义符号
n1:在所有垃圾邮件中单词x1出现的次数。如果x1没有出现过,则n1=0;
n:属于c1类的所有文档的出现过的单词总数目。
得到公式:
如果n1=0,n1/n为0,此时分子出现为0,不合理,不能只能因为没有单词x1,整体都变成零了。此时引入拉普拉斯平滑。
3.拉普拉斯平滑:,加1是为了避免分子为0,分母加N,相当于文档中所有单词出现的次数加1,因此修正分母是为了保证概率和为1。拉普拉斯平滑能够避免0/0带来的算法异常
4.贝叶斯网络
把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络,其又称为有向无环图模型,是一种概率图模型,根据概率图的拓扑结构,考察一组随机变量{X1,X2,...Xn}及其n组条件概率分布。
一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量,未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因”,另一个是“果”,两节点就会产生一个条件概率值。
每一节点在给定其直接前驱时,条件独立于其非后继。
举一个例子,如下图所示
直观上:x1和x2独立;x6和x7在x4给定的条件下独立
x1,x2,...x7的联合分布
5.特殊的贝叶斯网络
(图像取自七月算法)
结点形成一条链式网络,称作马尔科夫模型。A(i+1)只与Ai有关,与A1,...,A(i-1)无关。(属于贝叶斯网络判定条件独立head-to-tail型)
pLSA主题模型。
6.贝叶斯网络的建立:(1)领域知识(专家);
(2)无领域知识,则从数据角度,
7.通过贝叶斯网络判定条件独立:
(1)在c给定的条件下,a,b被阻断,是独立的,条件独立tail-to-tail;
(图像取自七月算法)
(2)在c给定的条件下,a,b被阻断,是独立的,条件独立head-to-tail;
(图像取自七月算法)
(3)在c未知的条件下,a,b被阻断,是独立的:head-to-head
(图像取自七月算法)
8.贝叶斯网络的用途
通过给定的样本数据,建立贝叶斯网络的拓扑结构和结点的条件概率分布参数。这往往需要借助先验知识和极大似然估计来完成。
在贝叶斯网络确定的结点拓扑结构和条件概率分布的前提下,可以使用该网络,对未知数据计算条件概率或后验概率,从而达到诊断、预测或者分类的目的。
- 信息熵与贝叶斯网络
- 网络与信息安全
- D网络与信息安全
- 网络与信息安全初探
- 网络搜索与信息收集路路通
- 网络与信息安全工程师职位要求
- 网络与信息安全应急处置预案
- 最新资讯2015网络与信息安全博览会
- 网络中的身份保护与信息保护
- 网络与信息安全学习日记
- 2017光信息与光网络大会
- 网络与信息安全研究方向
- Python网络爬虫与信息提取(一)
- 信息熵与信息增益
- Python网络爬虫与信息提取 网络爬虫之规则
- Linux 查看网络信息,路由信息 与DNS信息的命令
- 数据压缩与信息熵
- 信息熵与清晰度
- LVM 中PV、PE、VG、LV的理解
- 深度学习之-Dropout的讲解(5)
- CF 668C Little Artem and Random Variable
- Defuse the Bomb——ZOJ3938模拟
- HDOJ 1348 Wall (凸包)
- 信息熵与贝叶斯网络
- Palindrome Number
- PCA的数学原理(非常值得阅读)!!!!
- 什么事情,都要去试一试啊
- Codeforces 451C Predict Outcome of the Game (枚举+YY)
- 24.二叉搜索树与双向链表(做第二遍时感觉仍有难度,做第三遍时还需要看下思路)
- ExpandableListView与CheckBox点击冲突
- android多用户
- web day26 小项目练习图书商城 后台分类管理模块,图书管理模块,前台登陆过滤