DeepLearning学习笔记——极大似然估计
来源:互联网 发布:手机如何开网店淘宝店 编辑:程序博客网 时间:2024/06/05 22:40
- 简介
- 条件对数似然和均方误差
- 最大似然的性质
一般提到估计,我们首先想到的是通过输入,估计输出。这时,有很多准则,比如偏差和方差来帮我们估计。然而有时候,我们希望有些方法可以让我们估计输入到输出的函数(当函数模型确定时,就是估计函数的参数)。这些函数由于模型和参数的不同而不同,它们组成了在机器学习中常说的函数空间。极大似然估计就可以帮我们从函数空间中选定特定的函数作为好的估计简单来说,就对于
简介
考虑一组含有m个样本的数据集
既然样本中存在隐含分布
对独立同分布的样本,生成样本集
对
多个概率的乘积公式会因很多原因不便于计算。例如,计算中很可能会因为多个过小的数值相乘而出现数值下溢。为了得到一个便于计算的等价优化问题,我们观察到似然对数不会改变其argmax但是将成绩转化成了便于计算的求和形式:
因为当我们重新缩放代价函数时argmax不会改变,我们可以乘以m得到和训练数据经验分布
最后通过对上式取偏导等于0就可以获得参数
一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布
左边一项仅涉及到数据生成过程,和模型无关。这意味着当我们训练模型最小化KL散度时,我们只需要最小化
最小化KL散度其实就是在最小化分布之间的交叉熵。许多作者使用术语“交叉熵”特定表示伯努利或softmax分布的负对数似然,但那是用词不当的。任何一个由负对数似然组成的损失都是定义在训练集上的经验分布和定义在模型上的概率分布之间的交叉熵。例如,均方误差是经验分布和高斯模型之间的交叉熵。
我们可以将最大似然看作是使模型分布尽可能和经验分布
虽然最有
条件对数似然和均方误差
最大似然估计很容易扩展到估计条件概率
如果假设样本是独立同分布的,那么这可以分解成
最大似然的性质
最大似然估计最吸引人的地方在于,它被证明当样本数目
- 真实分布
pdata 必须在模型族pmodel(⋅;θ) 中。否则,没有估计可以还原pdata 。 - 真实分布
pdata 必须刚好对应一个θ 值。否则,最大似然估计恢复出真实分布pdata 后,也不能决定数据生成过程使用哪个θ 。
除了最大似然估计,还有其他的归纳准则,其中许多共享一致估计的性质。然而,一致估计的统计效率可能区别很大。某些一致估计可能在固定数目的样本上获得一个较低的泛化误差,或者等价地,可能只需要较少的样本就能达到一个固定程度的泛化误差。
统计效率通常用于有参情况(parametric case)的研究中(例如线性回归)。有参情况中我们的目标是估计参数值(假设有可能确定真实参数),而不是函数值。一种度量我们和真实参数相差多少的方法是计算均方误差的期望,即计算 m 个从数据生成分布中出来的训练样本上的估计参数和真实参数之间差值的平方。有参均方误差估计随着 m 的增加而减少,当 m 较大时,Cramér-Rao 下界 (Rao, 1945; Cramér,1946) 表明不存在均方误差低于最大似然估计的一致估计。
因为这些原因(一致性和统计效率),最大似然通常是机器学习中的首选估计。当样本数目小到会发生过拟合时,正则化策略如权重衰减可用于获得训练数据有限时方差较小的最大似然有偏版本。
- DeepLearning学习笔记——极大似然估计
- 机器学习笔记(二)矩估计,极大似然估计
- 极大似然估计学习总结
- 机器学习数学|极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 极大似然估计
- 异常
- [HDU](4857)逃生 ---拓扑排序(反向)+STL优先级队列(图)
- Android 热更新技术详解
- 【luogu1379】八数码难题(bfs)
- 含有父子关系的上下节点SQL
- DeepLearning学习笔记——极大似然估计
- Brackets sequence UVA
- 牛客网华为在线训练---字符串分隔
- 海量数据处理算法
- 实时处理Kafka发来的日志信息
- Audit注解拦截器,用于自动记录日志
- 【shiro】--- 身份认证
- Android Studio-Didn't find class XXX on path: DexPathList [zip file "/data/app/packagename/base.apk]
- POI读取Excel处理斜体-加标签<i></i>