【文献阅读】dropout distillation

来源:互联网 发布:淘宝借呗 编辑:程序博客网 时间:2024/05/16 23:37

PMLR 2016

标准的dropout在测试阶段没有按照bayesian的思想在指数多个网络上做预测再平均,而是根据dropout的概率scaling weights来近似平均,这主要是基于计算有效性地考虑,但会损失准确率。
本文提出dropout distillation,更好的平均,保持计算有效性,提供更好的准确率。

标准的dropout是在前馈NN提出的,也使用于RNN。
本文讨论前馈NN,对RNN也适用。

经典标准的dropout的移除/保留开关 作用于神经元的输出。
drop-connect 的移除/保留开关 作用于网络连接connections,更细粒度。
本文讨论dropout情况,对drop-connect也适用。


model description

监督学习,前馈网络,
Θ 模型参数
σ={σ1,...,σn} 门变量,作用在n个节点上

minθEx,y,σ[l(y,fΘ,σ(x)]

empirical risk approximation

minΘ1Ni=1NEσ[l(yi,fΘ,σ(xi)]

训练SGD,随机采样min-batch数据,为min-batch的每个数据随机采样门变量(对每个节点确定保留还是移除)

approximation of predictor

测试阶段,理想的预测
fdropout(x)=Eσ[fΘ,σ(x)]

标准的dropout

scaling weight,
假设在网络的每一层有Eσ[hi(z)]=hi(Eσ[z])

一般都不等的,近似的好坏与采取的响应函数相关。

mconte carlo 采样

1mmi[fΘ,σi(x)]
计算代价太大,测试阶段不能太耗时

dropout distillation

从X空间到Y空间的映射,是各种各样的预测器,包括理想的dropout预测fdropout

考虑一个预测期集合Q,可以(甚至比较有效率地)计算。
例如,与原始网络有相同结构的 确定的(不含dropout的)前馈网络

从Q中找与fdropout最近的预测期q

minqEx[l(fdropout(x),q(x))]

近似关于输入的期望,在一些独立的样本的集合S上计算平均

minq1Nil(fdropout(xi),q(xi)), J^(q)

S的取法包括

  • 从噪声分布中采样,无数数据,与真实数据太不一样
  • 用训练数据,过拟合
  • 训练数据+噪声扰动
  • 从数据分布中采样一些unseen样本

近似关于dropout的期望,先取dropout配置预测算距离,再对多种dropout配置平均。

minq1NiEσ[l(fΘ,σ(xi),q(xi))], J^(q)

  1. 先标准的dropout训练,得到Θ
  2. 构造S,和dropout训练一样对原网络采样许多子网络计算f, 解距离最小化优化问题,得到q网络的参数。
  3. 对测试集,用q网络做预测。

收敛性

  • 当Y空间的距离函数l(y,y^)相对于y是凸的,则 先对dropout平均再做预测 计算的与q的距离(J^(q)),小于,取一种dropout配置计算与q的距离再相对于dropout配置平均 (J^(q))。
  • 进一步当l(y,y^)=g1(y)+g2(y^)+yTg3(y^)J^(q)J^(q)两者的差值与q无关。
  • Bregman散度(squared euclidean, KL,…)满足上述假设。