PRML_决策论&信息论
来源:互联网 发布:层次聚类 python 编辑:程序博客网 时间:2024/05/22 12:14
决策论
分类决策
在做决策的一个准则就是如何减少误分类损失:
如在而分类中,即把所属类别为c1的数据分到c2,把所属类别为c2的数据分到c1。
用矩阵表示可以为:
把本来属于类别ck分类到cj。L为k行j列矩阵。
在做决策时,我们考虑
先验概率
通过最大化
先求联合分布
直接求后验概率
直接求函数y(x)
回归决策
考虑模型
其中
可得
最优的
另一种方法可以构造
同样的决策也有三:
先验概率:通过求得p(x,t)来求p(t|x)
后验概率:直接求p(t|x)
直接通过函数。
信息论
信息论,顾名思义就是谈信息。而本节对信息的定义在于:若某个数据已经确定的被分类,那么所含信息为0,尚未确定的数据分类信息则大于分类已经确定性比较大的数据信息。概括的说,包含信息内容越大,那么不确定就越强。
这就是所谓的熵,反应的是不确定性的大小。
定义:
若两个变量x,y相互独立,我们可以得出
h(x,y) = h(x)+h(y),
p(x,y) = p(x)p(y)
因此我们定义某一变量信息的公式:
基数2是因为计算机都是0-1编码。
这就涉及到了信道传播方式和计算机的编码问题。
如果有一串变量输入,那么信息的平均值(期望)为:
而在实际应用中,我们则使用:
上述是离散变量的熵,那么连续变量的熵呢?
在离散变量中,我们看到,当取平均分布时候,熵最大,而连续变量呢?
而我们期待最大化熵值的时候,利用拉格朗日乘子
限制条件如下:
根据拉格朗日乘子:
分别对
在将
得到x符合高斯分布:
相对熵或者互信息或者KL散度
实际x的分布为p(x),假设近似估计的分布为q(x)
定义:
利用jensen不等式证明KL(p||q)大于等于0。
首先介绍了凸函数和jensen不等式。
接下来,当衡量两个变量的分布时,就涉及到了互信息问题:联合分布和两个分布之积的KL距离。若两个变量独立分布,没有关系,那么KL=0.
又因为
可以间接得出
将上面的式子拆开,即可得到
二者之间的KL距离可以使用x的先验熵减去得知y的后验熵。
- PRML_决策论&信息论
- 模式识别与机器学习(一):概率论、决策论、信息论
- 模式识别与机器学习(一):概率论、决策论、信息论
- 模式识别与机器学习(一):概率论、决策论、信息论
- PRML Ch 1: Introduction 从概率论、决策论和信息论的角度来看机器学习
- 信息论
- 信息论
- 信息论
- 信息论
- 信息论
- 信息论
- 信息论
- 信息论
- 贝叶斯决策论
- 贝叶斯决策论小结
- 09-决策论
- 贝叶斯决策论例子
- 贝叶斯决策论小结
- 0130 分布式网站架构后续:zookeeper技术浅析
- Android音频实时传输与播放(三):AMR硬编码与硬解码
- SVM 入门级
- slk文件读取
- C语言中关于时间的函数
- PRML_决策论&信息论
- php 对象复制
- Android实战简易教程<二十八>(Uri转String型实例)
- 几种网页弹出层的实现
- coreseek(sphinx)错误:WARNING: attribute 'id' not found - IGNORING原因及解决方法
- 支持向量机:Kernel II
- hibernate泛型Dao,让持久层简洁起来
- CompletionService
- STL系列之六 set与hash_set