【文献阅读】dropout distillation
来源:互联网 发布:淘宝借呗 编辑:程序博客网 时间:2024/05/16 23:37
PMLR 2016
标准的dropout在测试阶段没有按照bayesian的思想在指数多个网络上做预测再平均,而是根据dropout的概率scaling weights来近似平均,这主要是基于计算有效性地考虑,但会损失准确率。
本文提出dropout distillation,更好的平均,保持计算有效性,提供更好的准确率。
标准的dropout是在前馈NN提出的,也使用于RNN。
本文讨论前馈NN,对RNN也适用。
经典标准的dropout的移除/保留开关 作用于神经元的输出。
drop-connect 的移除/保留开关 作用于网络连接connections,更细粒度。
本文讨论dropout情况,对drop-connect也适用。
model description
监督学习,前馈网络,
empirical risk approximation
训练SGD,随机采样min-batch数据,为min-batch的每个数据随机采样门变量(对每个节点确定保留还是移除)
approximation of predictor
测试阶段,理想的预测
标准的dropout
scaling weight,
假设在网络的每一层有
一般都不等的,近似的好坏与采取的响应函数相关。
mconte carlo 采样
计算代价太大,测试阶段不能太耗时
dropout distillation
从X空间到Y空间的映射,是各种各样的预测器,包括理想的dropout预测
考虑一个预测期集合Q,可以(甚至比较有效率地)计算。
例如,与原始网络有相同结构的 确定的(不含dropout的)前馈网络。
从Q中找与
近似关于输入的期望,在一些独立的样本的集合S上计算平均
S的取法包括
- 从噪声分布中采样,无数数据,与真实数据太不一样
- 用训练数据,过拟合
- 训练数据+噪声扰动
- 从数据分布中采样一些unseen样本
近似关于dropout的期望,先取dropout配置预测算距离,再对多种dropout配置平均。
- 先标准的dropout训练,得到
Θ∗ 。- 构造S,和dropout训练一样对原网络采样许多子网络计算f, 解距离最小化优化问题,得到q网络的参数。
- 对测试集,用q网络做预测。
收敛性
- 当Y空间的距离函数
l(y,y^) 相对于y是凸的,则 先对dropout平均再做预测 计算的与q的距离(J^(q) ),小于,取一种dropout配置计算与q的距离再相对于dropout配置平均 (J′^(q) )。- 进一步当
l(y,y^)=g1(y)+g2(y^)+yTg3(y^) ,J^(q) 与J′^(q) 两者的差值与q无关。- Bregman散度(squared euclidean, KL,…)满足上述假设。
- 【文献阅读】dropout distillation
- [文献阅读]dropout
- [文献阅读]dropout as a bayesian approximation: representing model uncertainty in deep learning
- [文献阅读]dropout as a bayesian approximation: representing model uncertainty in deep learning
- 文献阅读
- 文献阅读
- 文献阅读
- 文献阅读
- 文献阅读
- Dropout阅读笔记
- Keras源代码阅读-Dropout
- 论文阅读,写作,文献阅读
- 如何阅读文献
- 如何阅读文献
- 如何阅读文献
- 如何阅读文献
- 如何阅读文献
- 如何阅读文献
- 【Leetcode】【python】Minimum Depth of Binary Tree
- 码云,git使用 教程
- Java编程入门基础笔记-New
- 以后 博文 要做 中文对照,利于国际化,利于自己熟悉英语。
- uva679
- 【文献阅读】dropout distillation
- Vue进阶-入门
- Making the Grade (bzoj1592)
- unity角色摄像机实际坐标变了,但是不移动的问题
- 【Leetcode】【python】Binary Tree Preorder Traversal
- 搭建简单的http服务器
- 计算机视觉小实例 No.4 车牌定位(二)
- 08020000
- Spring日志记录+线程池